Moonshot AI a émergé en 2023 de l'esprit de Yang Zhilin, un chercheur dont les travaux universitaires avaient déjà façonné la façon dont l'industrie conçoit la modélisation de longs contextes. Yang a obtenu son doctorat à Carnegie Mellon sous la direction de Ruslan Salakhutdinov et William Cohen, puis a passé du temps chez Google Brain où il a coécrit Transformer-XL et XLNet — deux articles qui abordaient directement les limites des transformers standards face aux longues séquences. Plutôt que de continuer comme chercheur dans un laboratoire occidental, Yang est retourné en Chine et a fondé Moonshot avec un pari unique : la longueur du contexte serait le facteur de différenciation déterminant pour la prochaine génération d'assistants IA. Il a levé plus de 1 milliard de dollars en première année, avec le soutien de Sequoia China, Alibaba et HongShan (anciennement Sequoia Capital China), atteignant une valorisation estimée à 2,5 milliards de dollars début 2024.
Le produit phare de Moonshot, Kimi, a été lancé en octobre 2023 avec une fenêtre de contexte de 200 000 jetons — à une époque où la plupart des agents conversationnels concurrents plafonnaient autour de 8 000 à 32 000 jetons. Début 2024, ils avaient poussé ce chiffre à 2 millions de jetons, rendant Kimi capable d'ingérer des bases de code entières, des livres complets ou des centaines de pages de documents juridiques en une seule conversation. Ce n'était pas qu'une démonstration technique ; Kimi est rapidement devenu l'un des assistants IA les plus populaires en Chine, particulièrement auprès des étudiants et des travailleurs du savoir qui avaient besoin de traiter de grands volumes de texte. Le produit a crû si vite qu'il a planté à répétition sous la charge lors de moments viraux sur les médias sociaux chinois, un problème qui, paradoxalement, a renforcé sa visibilité.
Sous le capot, Moonshot s'est appuyée sur les recherches antérieures de Yang en mécanismes d'attention efficaces. Leur approche de la mise à l'échelle des fenêtres de contexte impliquait une combinaison de schémas d'attention épars, de gestion du cache clé-valeur économe en mémoire et d'une infrastructure personnalisée optimisée pour l'inférence de longues séquences. L'entreprise a été relativement discrète sur l'architecture exacte de ses modèles, mais les résultats de bancs d'essai et les retours d'utilisateurs suggèrent qu'ils traitent véritablement les longs contextes plutôt que de les tronquer silencieusement — une distinction importante puisque plusieurs concurrents se sont fait prendre à annoncer de grandes fenêtres de contexte tout en ignorant effectivement la majeure partie de l'entrée. Moonshot a également investi massivement dans des approches de génération augmentée par la recherche qui complètent la fenêtre de contexte brute, donnant à Kimi la capacité de rechercher sur le web et d'intégrer de l'information en temps réel en plus des documents téléversés par l'utilisateur.
Moonshot occupe une position unique dans le paysage encombré des entreprises en démarrage chinoises en IA. Alors que des entreprises comme Baidu, Alibaba et ByteDance apportent d'immenses avantages de distribution, et que d'autres jeunes pousses comme Zhipu AI et MiniMax rivalisent sur les capacités générales, Moonshot s'est taillé une identité claire autour du cas d'utilisation du long contexte. Cette concentration lui a donné un créneau défendable même lorsque de plus gros acteurs se sont empressés de rejoindre leurs longueurs de contexte. L'entreprise a également navigué efficacement dans l'environnement réglementaire chinois, obtenant les approbations nécessaires pour exploiter un assistant IA public. À la mi-2025, Kimi avait étendu ses capacités multimodales incluant la compréhension et la génération d'images, et Moonshot explorait des applications d'entreprise — mais l'identité fondamentale demeurait : l'entreprise qui prend le contexte au sérieux.
Le plus grand défi de Moonshot est la viabilité financière. Exécuter de l'inférence sur des contextes de 2 millions de jetons est extraordinairement coûteux, et l'entreprise a brûlé du capital à un rythme qui rend même les investisseurs de la Silicon Valley nerveux. Il y a aussi des questions sur la durabilité de l'avantage du long contexte à mesure que les concurrents améliorent leur propre gestion du contexte et que les approches basées sur la recherche réduisent le besoin de fenêtres massives. Yang Zhilin a publiquement soutenu que le contexte plus long n'est pas qu'une fonctionnalité, mais une manière fondamentalement différente d'interagir avec l'IA — qu'il permet des schémas de raisonnement impossibles quand le modèle ne peut voir que des fragments. Que cette thèse tienne commercialement déterminera si Moonshot devient une entreprise déterminante de cette ère ou un cas d'étude techniquement impressionnant sur les risques de brûler trop vite, trop fort.