Poetiq——一個未識別的組織,網站在 poetiq.ai——發布了聲稱「元系統」可以自動建構推理 harness 的結果,這些 harness 可以在沒有微調或模型內部存取的情況下提高任何 LLM 在程式碼基準上的效能。在 LiveCodeBench Pro 上報告的數字很尖銳:Gemini 3.1 Pro 從 78.6% 攀升至 90.9%,GPT-5.5 High 從 89.6% 至 93.9%,Kimi K2.6 從 50.0% 至 79.9%(大約 +30 個百分點),Gemini 3.0 Flash 從 72.3% 至 82.3%,以及 Nemotron 3 Super 120B +12.8pp。harness 僅在 Gemini 3.1 Pro 上最佳化,然後未經修改地應用於其他模型。如果這些數字得到複製,這是一個有意義的推理時增益,尤其是 Kimi K2.6 在 competitive-programming 風格基準上的結果。

機制是聲明在公開形式中變薄的地方。部落格將元系統框架為「透過遞迴自我改進建構任務特定的 harness」,「開發更好的策略來決定要問什麼,完善序列化的問題鏈,並發明組裝答案的新方法」。那是形式而不是規範。沒有發布逐步演算法,沒有提供 arXiv 預印本 ID,沒有命名 GitHub 儲存庫,而且 harness 本身似乎不是開源的。文章連結到 Poetiq 在 poetiq.ai/posts/recursive_self_improvement_coding/ 的貼文以獲取技術細節,但那裡的揭露級別決定了這是一個可重現的結果還是一個供應商聲明。過去兩年推理時增益研究的模式是,頭條數字通常會保持,但一旦第三方在乾淨執行中用相同的 harness 複製,幅度就會更低。

LiveCodeBench Pro 對於這種聲明是正確的基準選擇,因為它是針對兩種常見失敗模式——資料汙染和過擬合——而設計的,透過 C++ competitive programming 任務和持續更新。這有幫助。但 LCB Pro 上的 harness 最佳化仍然可以對 LCB Pro 過擬合:元系統被訓練為最大化此精確評估的分數,即使沒有單獨的問題洩漏。Kimi K2.6 從 50% 到 80% 的跳躍是你想要詢問 harness 是否編碼了基準格式的結構性知識(輸入/輸出形狀、樣本測試執行器、retry-on-failure 迴圈)與真正可推廣的推理支援的那種擺動。沒有 harness 在公開中,那個問題無法回答。

對於建構者:為此加入書籤並等待。如果 Poetiq 發布 harness 或元系統,那麼 +30pp 的 Kimi K2.6 結果值得在你自己的程式碼評估上執行,然後再改變任何東西。如果他們只發布論文而不發布程式碼,在其他人複製之前將其視為假設。實質性問題——「這種深度的提示和 harness 工程能否在異構模型上產生 ~10-30pp 的增益,而無需每模型重新調優?」——是目前代理程式碼領域價值最高的開放問題之一,而對此的答案比任何單一基準數字更有價值。