Karpathy joint Anthropic, lead team qui utilise Claude pour speed pre-training R&D, Zubnet AI Nouvelles

Andrej Karpathy a commencé chez Anthropic cette semaine, rapportant au lead pre-training Nick Joseph et leadant une nouvelle team focused sur utiliser Claude pour accélérer la recherche pre-training. L'historique de Karpathy : co-fondateur OpenAI, ex-Tesla AI Director, auteur de Nano-GPT, llm.c, et du canon LLM éducatif from-scratch que la communauté research small-model cite depuis des années. Il a fondé Eureka Labs en 2024 ; ce projet est en pause avec intention de revenir « in time. » Sa propre statement : « les prochaines années à la frontière des LLMs vont être especially formative. Très excité de joindre la team ici et de revenir au R&D. » C'est la défection alumni OpenAI vers Anthropic la plus prominente depuis que Dario et Daniela Amodei ont quitté OpenAI pour fonder Anthropic en 2021.

Deux choses que ça signale. Premièrement, l'org pre-training d'Anthropic a maintenant une team dédiée pour la recherche AI-assistée, dirigée par un des noms les plus respectés en efficacité de scaling. L'expertise de Karpathy — lignée nano-GPT, llm.c, small-model-efficiency à la frontière — est inhabituelle dans les gros labs où la culture dominante c'est more compute, more data, more parameters. Anthropic parie que quelqu'un qui comprend deeply le régime small-model trouve des wins d'efficacité qui compoundent à l'échelle. Deuxièmement, « utiliser Claude pour accélérer la recherche pre-training » c'est la forme opérationnelle de la thèse AI-agents-qui-écrivent-leurs-successeurs. Le mandat de la team c'est d'utiliser le Claude actuel pour trouver le prochain Claude plus vite. Si ça marche, c'est un speedup mesurable de la vélocité de recherche — et un pari fondamentalement différent de la trajectoire compute-and-scale Stargate d'OpenAI ou du buildout Vera Rubin NVL72 plus JV-TPU-Blackstone de Google.

Effet écosystème : Anthropic croit que le moat compétitif c'est la vélocité de recherche par dollar de compute, pas la capacité raw de compute. Consistent avec le cadrage Capability Curve à Code With Claude (62% à 87% sur SWE-bench Verified en douze mois) et avec le focus MCP plus Managed Agents sur les primitives infrastructure plutôt que juste des plus gros modèles. Là où OpenAI sous Altman scale Stargate, Google bâtit des systèmes de référence Vera Rubin NVL72 et JV avec Blackstone sur les TPU clouds, Anthropic hire l'expert en efficacité small-model pour lead la recherche pre-training AI-assistée. Pari différent sur ce qui win les deux prochaines années. Pour les builders de l'écosystème wrapper, ça renforce ce que la Capability Curve disait déjà : les dollars de recherche d'Anthropic vont à rendre le modèle lui-même meilleur et plus rapide, pas dans le scaffolding autour.

Lundi matin : watch l'output pre-training d'Anthropic en Q3 et Q4 pour des signes d'accélération du throughput de recherche — cadence des releases de modèles, vélocité de sortie de papers, améliorations d'eval par unité de compute. Si la prochaine génération Opus ou un refresh Sonnet ship plus tôt que les 12-15 mois typiques et montre un autre jump classe-SWE-bench, la thèse AI-assisted-research a du backing empirique. Pour les builders spécifiquement : la boucle model-improvement s'internalise — le pari c'est des modèles qui se rendent meilleurs plus vite eux-mêmes. Ça change le planning prompt-engineering downstream. Les patterns de prompt qui marchaient à la capability précédente du modèle décaient plus vite si la vélocité de recherche accélère. Plane pour des lifetimes de prompt-pattern plus courts ; bâtis ton stack assez thin pour rider la courbe plutôt que d'être locked à un comportement de modèle fixe. Karpathy qui joint c'est aussi un signal de hiring : si t'es un chercheur small-model-efficiency et tu watches où la vraie action R&D est, la réponse vient de devenir plus claire.

Karpathy joint Anthropic, lead team qui utilise Claude pour speed pre-training R&D

Plus de nouvelles