Poetiq——一个未识别的组织,网站在 poetiq.ai——发布了声称「元系统」可以自动构建推理 harness 的结果,这些 harness 可以在没有微调或模型内部访问的情况下提高任何 LLM 在编码基准上的性能。在 LiveCodeBench Pro 上报告的数字很尖锐:Gemini 3.1 Pro 从 78.6% 攀升至 90.9%,GPT-5.5 High 从 89.6% 至 93.9%,Kimi K2.6 从 50.0% 至 79.9%(大约 +30 个百分点),Gemini 3.0 Flash 从 72.3% 至 82.3%,以及 Nemotron 3 Super 120B +12.8pp。harness 仅在 Gemini 3.1 Pro 上优化,然后未经修改地应用于其他模型。如果这些数字得到复制,这是一个有意义的推理时增益,尤其是 Kimi K2.6 在 competitive-programming 风格基准上的结果。

机制是声明在公开形式中变薄的地方。博客将元系统框架为「通过递归自我改进构建任务特定的 harness」,「开发更好的策略来确定要问什么,完善序列化的问题链,并发明组装答案的新方法」。那是形式而不是规范。没有发布逐步算法,没有提供 arXiv 预印本 ID,没有命名 GitHub 仓库,而且 harness 本身似乎不是开源的。文章链接到 Poetiq 在 poetiq.ai/posts/recursive_self_improvement_coding/ 的帖子以获取技术细节,但那里的披露级别决定了这是一个可重现的结果还是一个供应商声明。过去两年推理时增益研究的模式是,头条数字通常会保持,但一旦第三方在干净运行中用相同的 harness 复制,幅度就会更低。

LiveCodeBench Pro 对于这种声明是正确的基准选择,因为它是针对两种常见失败模式——数据污染和过拟合——而设计的,通过 C++ competitive programming 任务和持续更新。这有帮助。但 LCB Pro 上的 harness 优化仍然可以对 LCB Pro 过拟合:元系统被训练为最大化此精确评估的分数,即使没有单独的问题泄露。Kimi K2.6 从 50% 到 80% 的跳跃是你想要询问 harness 是否编码了基准格式的结构性知识(输入/输出形状、样本测试运行器、retry-on-failure 循环)与真正可推广的推理支持的那种摆动。没有 harness 在公开中,那个问题无法回答。

对于构建者:为此添加书签并等待。如果 Poetiq 发布 harness 或元系统,那么 +30pp 的 Kimi K2.6 结果值得在你自己的编码评估上运行,然后再改变任何东西。如果他们只发布论文而不发布代码,在其他人复制之前将其视为假设。实质性问题——「这种深度的提示和 harness 工程能否在异构模型上产生 ~10-30pp 的增益,而无需每模型重新调优?」——是目前代理编码领域价值最高的开放问题之一,而对此的答案比任何单一基准数字更有价值。