Poetiq — poetiq.ai पर एक वेबसाइट के साथ एक अनिदेंतीफाइड संगठन — ने परिणाम प्रकाशित किए जो दावा करते हैं कि एक "मेटा-सिस्टम" फ़ाइन-ट्यूनिंग या मॉडल-आंतरिक एक्सेस के बिना कोडिंग बेंचमार्क पर किसी भी LLM के प्रदर्शन में सुधार करने वाले इन्फेरेंस हार्नेस को स्वचालित रूप से बना सकता है। LiveCodeBench Pro पर रिपोर्ट की गई संख्याएँ तीक्ष्ण हैं: Gemini 3.1 Pro 78.6% से 90.9% तक चढ़ता है, GPT-5.5 High 89.6% से 93.9%, Kimi K2.6 50.0% से 79.9% (लगभग +30 प्रतिशत अंक), Gemini 3.0 Flash 72.3% से 82.3%, और Nemotron 3 Super 120B +12.8pp द्वारा। हार्नेस को केवल Gemini 3.1 Pro पर ऑप्टिमाइज़ किया गया और अन्य मॉडलों पर अपरिवर्तित लागू किया गया। यदि ये संख्याएँ दोहराई जाती हैं, तो यह एक सार्थक इन्फेरेंस-समय लाभ है, विशेष रूप से Kimi K2.6 परिणाम एक competitive-programming-शैली बेंचमार्क पर।
तंत्र वह जगह है जहाँ दावा सार्वजनिक रूप में पतला हो जाता है। ब्लॉग मेटा-सिस्टम को "पुनरावर्ती स्व-सुधार के माध्यम से कार्य-विशिष्ट हार्नेस का निर्माण" के रूप में फ़्रेम करता है, "क्या पूछना है यह निर्धारित करने के लिए बेहतर रणनीतियाँ विकसित करना, अनुक्रमिक प्रश्न-श्रृंखलाओं को परिष्कृत करना, और उत्तरों को इकट्ठा करने के लिए नई विधियाँ ईजाद करना"। वह स्पेक के बजाय आकार है। कोई step-by-step एल्गोरिथम प्रकाशित नहीं है, कोई arXiv प्रीप्रिंट ID प्रदान नहीं किया गया है, कोई GitHub रिपॉजिटरी नामित नहीं है, और हार्नेस स्वयं ओपन सोर्स नहीं प्रतीत होता है। लेख तकनीकी विवरण के लिए poetiq.ai/posts/recursive_self_improvement_coding/ पर एक Poetiq पोस्ट से लिंक करता है, लेकिन वहाँ का खुलासा स्तर यह निर्धारित करता है कि यह एक पुनरुत्पादन योग्य परिणाम है या एक विक्रेता दावा। पिछले दो वर्षों में इन्फेरेंस-समय-लाभ अनुसंधान के लिए पैटर्न रहा है कि हेडलाइन संख्याएँ आमतौर पर बनी रहती हैं लेकिन एक तीसरे पक्ष द्वारा एक ही हार्नेस के साथ एक स्वच्छ रन पर पुनरुत्पादित होने पर कम परिमाण पर।
LiveCodeBench Pro इस प्रकार के दावे के लिए सही बेंचमार्क विकल्प है क्योंकि यह दो सामान्य विफलता मोडों — डेटा संदूषण और ओवरफ़िटिंग — के विरुद्ध C++ competitive programming कार्यों और निरंतर अपडेट के माध्यम से डिज़ाइन किया गया है। यह मदद करता है। लेकिन LCB Pro पर हार्नेस अनुकूलन अभी भी LCB Pro पर ओवरफ़िट हो सकता है: मेटा-सिस्टम को इस सटीक eval पर स्कोर को अधिकतम करने के लिए प्रशिक्षित किया गया था, भले ही कोई व्यक्तिगत समस्या लीक न हुई हो। Kimi K2.6 50% से 80% तक की छलाँग वह प्रकार का स्विंग है जहाँ आप पूछना चाहते हैं कि क्या हार्नेस बेंचमार्क प्रारूप (input/output आकार, सैंपल टेस्ट रनर, retry-on-failure लूप) के संरचनात्मक ज्ञान को एनकोड करता है बनाम वास्तव में सामान्यीकरण योग्य तर्क समर्थन। ओपन में हार्नेस के बिना, उस प्रश्न का उत्तर नहीं दिया जा सकता।
बिल्डर्स के लिए: इसे बुकमार्क करें और प्रतीक्षा करें। यदि Poetiq हार्नेस या मेटा-सिस्टम प्रकाशित करता है, तो +30pp Kimi K2.6 परिणाम कुछ भी बदलने से पहले अपने स्वयं के कोडिंग evals पर चलाने योग्य है। यदि वे केवल कोड के बिना एक पेपर प्रकाशित करते हैं, तो इसे एक परिकल्पना के रूप में मानें जब तक कि कोई और दोहराए नहीं। मूल प्रश्न — "क्या इस गहराई पर प्रॉम्प्ट और हार्नेस इंजीनियरिंग प्रति-मॉडल पुनः-ट्यूनिंग के बिना विषम मॉडलों पर ~10-30pp लाभ उत्पन्न कर सकती है?" — इस समय एजेंटिक कोडिंग स्पेस में उच्च मूल्य के खुले प्रश्नों में से एक है, और उसका उत्तर किसी भी एकल बेंचमार्क संख्या से अधिक मूल्यवान है।
