Meta a dévoilé Muse Spark, un modèle de raisonnement multimodal avec utilisation d'outils, chaîne de pensée visuelle et capacités d'orchestration multi-agents. Le modèle alimente actuellement l'app AI et le site web de Meta, avec des déploiements prévus pour WhatsApp, Instagram, Facebook, Messenger et les lunettes AI dans les semaines à venir. Meta positionne ceci comme le « premier pas » vers la « superintelligence personnelle » à travers leur nouvelle division Superintelligence Labs, soutenue par des investissements stratégiques en infrastructure incluant le centre de données Hyperion.
Le cadrage « superintelligence personnelle » est de l'hyperbole marketing classique de Meta, mais les revendications techniques méritent attention. Le raisonnement multimodal avec intégration native d'outils représente un pas significatif au-delà des modèles basés sur le chat. La capacité de Meta à déployer à travers tout leur écosystème — plus de 3 milliards d'utilisateurs — leur donne des avantages de distribution que les entreprises purement AI n'ont pas. Cependant, Meta reconnaît des « lacunes de performance actuelles » dans les systèmes agentiques à long terme et les flux de travail de codage, domaines où OpenAI et Anthropic mènent actuellement.
L'aperçu d'API privée de Meta signale des ambitions d'entreprise au-delà des applications grand public. La refonte complète de leur stack AI suggère qu'ils misent gros sur l'intégration verticale plutôt que de dépendre d'infrastructures tierces. Ceci reflète leur approche historique avec React, PyTorch et autres outils développeur — construire en interne, puis open-sourcer stratégiquement.
Pour les développeurs, la question intéressante n'est pas la chronologie de superintelligence de Meta mais si les capacités multimodales de Muse Spark justifient de changer des fournisseurs existants. Le vrai test viendra quand l'API privée s'ouvrira et qu'on pourra comparer les performances contre GPT-4V, Claude 3 et Gemini Pro sur de vraies charges de travail de production.
