Microsoft a intégré un système de critique multi-modèle dans Copilot Researcher, puisant des capacités de plusieurs fournisseurs d'IA incluant Anthropic et OpenAI. Le système semble conçu pour que différents modèles évaluent et raffinent les résultats des autres durant les tâches de recherche, créant essentiellement un processus de révision par les pairs IA dans le flux de travail de recherche.
Cette démarche reflète la reconnaissance croissante qu'aucun modèle unique n'excelle en tout. Alors que GPT-4 pourrait bien gérer certaines tâches de raisonnement, Claude pourrait être meilleur pour d'autres, et les faire critiquer le travail de l'autre pourrait théoriquement produire de meilleurs résultats. C'est une approche sensée qui reflète ce que plusieurs développeurs font déjà manuellement — faire passer des prompts à travers plusieurs modèles et comparer les résultats. Microsoft ne fait que l'emballer dans leur outil de recherche.
Ce qui manque dans l'information disponible est crucial : Comment exactement ce système de critique fonctionne-t-il? Quels modèles gèrent quelles parties de l'évaluation? Qu'arrive-t-il quand les modèles ne s'entendent pas? Sans spécificités techniques, c'est impossible d'évaluer si c'est genuinement utile ou juste du théâtre marketing. Le manque de couverture détaillée d'autres sources suggère que c'est peut-être plus une mise à jour de fonctionnalité incrémentale qu'une percée.
Pour les développeurs qui bâtissent des flux de travail de recherche, ça pourrait être genuinement utile si bien implémenté. Mais le vrai test n'est pas le concept — c'est l'exécution. Les systèmes multi-modèles ajoutent de la complexité, de la latence et des coûts. Si Microsoft a résolu les défis d'orchestration élégamment, ça devient un avantage concurrentiel. Sinon, c'est juste de la surcharge de fonctionnalités coûteuse qui ralentit les tâches de recherche.
