A Poetiq — uma organização não identificada com um site em poetiq.ai — publicou resultados afirmando que um "Meta-Sistema" pode automaticamente construir harnesses de inferência que melhoram o desempenho de qualquer LLM em benchmarks de coding sem fine-tuning ou acesso interno ao modelo. Os números relatados no LiveCodeBench Pro são afiados: Gemini 3.1 Pro sobe de 78,6% para 90,9%, GPT-5.5 High de 89,6% para 93,9%, Kimi K2.6 de 50,0% para 79,9% (aproximadamente +30 pontos percentuais), Gemini 3.0 Flash de 72,3% para 82,3%, e Nemotron 3 Super 120B em +12,8pp. O harness foi otimizado apenas no Gemini 3.1 Pro e aplicado sem mudanças aos outros modelos. Se esses números se replicarem, é um ganho significativo em tempo de inferência, especialmente o resultado do Kimi K2.6 em um benchmark de estilo competitive-programming.

O mecanismo é onde a alegação fica fina em forma pública. O blog enquadra o meta-sistema como "construindo harnesses task-specific através de recursive self-improvement" "desenvolvendo melhores estratégias para determinar o que perguntar, refinando cadeias sequenciais de perguntas, e inventando novos métodos para montar respostas". Isso é forma em vez de spec. Nenhum algoritmo passo-a-passo é publicado, nenhum ID de preprint arXiv é fornecido, nenhum repositório GitHub é nomeado, e o harness em si não parece ser open source. O artigo linka para um post da Poetiq em poetiq.ai/posts/recursive_self_improvement_coding/ para detalhes técnicos, mas o nível de divulgação lá determina se este é um resultado reprodutível ou uma alegação de vendor. O padrão para pesquisa de ganhos em tempo de inferência nos últimos dois anos tem sido que os números de manchete geralmente se mantêm mas em magnitudes menores uma vez que uma terceira parte reproduz com o mesmo harness em uma corrida limpa.

LiveCodeBench Pro é a escolha de benchmark correta para esse tipo de alegação porque é projetado contra os dois modos comuns de falha — contaminação de dados e overfitting — através de tarefas C++ de competitive programming e atualizações contínuas. Isso ajuda. Mas a otimização de harness no LCB Pro ainda pode se sobreajustar ao LCB Pro: o meta-sistema foi treinado para maximizar a pontuação neste eval exato, mesmo que nenhum problema individual tenha vazado. O salto do Kimi K2.6 de 50% para 80% é o tipo de oscilação onde você quer perguntar se o harness codifica conhecimento estrutural do formato do benchmark (forma input/output, sample test runners, loops retry-on-failure) versus suporte de raciocínio genuinamente generalizável. Sem o harness em aberto, essa pergunta não pode ser respondida.

Para builders: marque isso e espere. Se a Poetiq publicar o harness ou o meta-sistema, o resultado +30pp do Kimi K2.6 vale rodar em seus próprios evals de coding antes de mudar qualquer coisa. Se eles publicarem apenas um paper sem código, trate como uma hipótese até que alguém mais replique. A pergunta substantiva — "pode prompt e harness engineering nessa profundidade produzir ganhos de ~10-30pp através de modelos heterogêneos sem retuning por modelo?" — é uma das perguntas abertas de maior valor no espaço de coding agêntico agora, e a resposta a isso vale mais do que qualquer número de benchmark individual.