Poetiq — une organisation non-identifiée avec un site à poetiq.ai — a publié des résultats prétendant qu'un « Méta-Système » peut automatiquement construire des harness d'inférence qui améliorent la performance de n'importe quel LLM sur des benchmarks de code sans fine-tuning ni accès interne au modèle. Les chiffres rapportés sur LiveCodeBench Pro sont tranchants : Gemini 3.1 Pro grimpe de 78,6 % à 90,9 %, GPT-5.5 High de 89,6 % à 93,9 %, Kimi K2.6 de 50,0 % à 79,9 % (environ +30 points de pourcentage), Gemini 3.0 Flash de 72,3 % à 82,3 %, et Nemotron 3 Super 120B de +12,8pp. Le harness a été optimisé sur Gemini 3.1 Pro seulement et appliqué inchangé aux autres modèles. Si ces chiffres se reproduisent, c'est un gain d'inférence-time significatif, surtout le résultat Kimi K2.6 sur un benchmark de style competitive-programming.

Le mécanisme c'est là où la prétention devient mince en forme publique. Le blog cadre le méta-système comme « bâtissant des harness task-specific par recursive self-improvement » en « développant de meilleures stratégies pour déterminer quoi demander, raffinant les chaînes séquentielles de questions, et inventant de nouvelles méthodes pour assembler les réponses ». C'est de la forme plutôt que du spec. Aucun algorithme step-by-step n'est publié, aucun ID de preprint arXiv n'est fourni, aucun dépôt GitHub n'est nommé, et le harness lui-même ne semble pas être open source. L'article lie à un post Poetiq à poetiq.ai/posts/recursive_self_improvement_coding/ pour les détails techniques, mais le niveau de divulgation là détermine si c'est un résultat reproductible ou une prétention vendor. Le pattern pour la recherche de gains d'inférence-time sur les deux dernières années a été que les chiffres à la une tiennent habituellement mais à des magnitudes plus basses une fois qu'une tierce partie reproduit avec le même harness sur un run propre.

LiveCodeBench Pro c'est le bon choix de benchmark pour ce genre de prétention parce qu'il est conçu contre les deux modes de panne communs — contamination de données et overfitting — via des tâches C++ de competitive programming et des updates continus. Ça aide. Mais l'optimisation de harness sur LCB Pro peut quand même overfitter à LCB Pro : le méta-système a été entraîné pour maximiser le score sur cet eval exact, même si aucun problème individuel n'a leaké. Le saut Kimi K2.6 de 50 % à 80 % c'est le genre de swing où tu veux demander si le harness encode une connaissance structurelle du format du benchmark (forme input/output, sample test runners, boucles retry-on-failure) versus du support de raisonnement vraiment généralisable. Sans le harness en ouvert, cette question ne peut pas être répondue.

Pour les builders : bookmark ça et attends. Si Poetiq publie le harness ou le méta-système, le résultat Kimi K2.6 +30pp vaut la peine de rouler sur tes propres evals de code avant de changer quoi que ce soit. S'ils publient seulement un papier sans code, traite ça comme une hypothèse jusqu'à ce que quelqu'un d'autre réplique. La question substantive — « est-ce que prompt engineering et harness engineering à cette profondeur peut produire des gains de ~10-30pp à travers des modèles hétérogènes sans retuning per-modèle » — c'est une des questions ouvertes à plus haute valeur dans l'espace coding agentique en ce moment, et la réponse à ça vaut plus que n'importe quel chiffre de benchmark isolé.