Poetiq — una organización no identificada con un sitio en poetiq.ai — publicó resultados afirmando que un "Meta-Sistema" puede automáticamente construir harnesses de inferencia que mejoran el rendimiento de cualquier LLM en benchmarks de coding sin fine-tuning o acceso interno al modelo. Los números reportados en LiveCodeBench Pro son afilados: Gemini 3.1 Pro sube de 78.6% a 90.9%, GPT-5.5 High de 89.6% a 93.9%, Kimi K2.6 de 50.0% a 79.9% (aproximadamente +30 puntos porcentuales), Gemini 3.0 Flash de 72.3% a 82.3%, y Nemotron 3 Super 120B por +12.8pp. El harness fue optimizado solo en Gemini 3.1 Pro y aplicado sin cambios a los otros modelos. Si esos números se replican, es una ganancia significativa en tiempo de inferencia, especialmente el resultado de Kimi K2.6 en un benchmark estilo competitive-programming.

El mecanismo es donde la afirmación se vuelve delgada en forma pública. El blog enmarca el meta-sistema como "construyendo harnesses task-specific a través de recursive self-improvement" "desarrollando mejores estrategias para determinar qué preguntar, refinando cadenas secuenciales de preguntas, e inventando nuevos métodos para ensamblar respuestas". Eso es forma en lugar de spec. No se publica algoritmo paso a paso, no se proporciona ID de preprint arXiv, no se nombra ningún repositorio GitHub, y el harness mismo no parece ser open source. El artículo enlaza a un post de Poetiq en poetiq.ai/posts/recursive_self_improvement_coding/ para detalles técnicos, pero el nivel de divulgación allí determina si esto es un resultado reproducible o una afirmación de vendor. El patrón para investigación de ganancias en tiempo de inferencia en los últimos dos años ha sido que los números titulares usualmente se mantienen pero a magnitudes más bajas una vez que una tercera parte reproduce con el mismo harness en una corrida limpia.

LiveCodeBench Pro es la elección correcta de benchmark para este tipo de afirmación porque está diseñado contra los dos modos comunes de falla — contaminación de datos y overfitting — a través de tareas C++ de competitive programming y actualizaciones continuas. Eso ayuda. Pero la optimización de harness en LCB Pro todavía puede sobreajustarse a LCB Pro: el meta-sistema fue entrenado para maximizar el score en este eval exacto, incluso si ningún problema individual se filtró. El salto de Kimi K2.6 de 50% a 80% es el tipo de swing donde quieres preguntar si el harness codifica conocimiento estructural del formato del benchmark (forma input/output, sample test runners, loops retry-on-failure) versus soporte de razonamiento genuinamente generalizable. Sin el harness en abierto, esa pregunta no puede responderse.

Para builders: marca esto y espera. Si Poetiq publica el harness o el meta-sistema, el resultado de Kimi K2.6 +30pp vale la pena correrlo en tus propios evals de coding antes de cambiar nada. Si publican solo un paper sin código, trátalo como una hipótesis hasta que alguien más replique. La pregunta sustantiva — "¿puede el prompt y harness engineering a esta profundidad producir ganancias de ~10-30pp a través de modelos heterogéneos sin retuning por modelo?" — es una de las preguntas abiertas de mayor valor en el espacio de coding agéntico ahora mismo, y la respuesta a eso vale más que cualquier número de benchmark individual.