François Chollet के ARC Prize Foundation ने अभी ARC-AGI-3 रिलीज़ किया है, और यह brutal है। इस interactive reasoning benchmark के नए version ने, जिसे इंसान 100% समय हल करते हैं, हर frontier AI मॉडल को 1% से नीचे गिरा दिया है। Google का Gemini Pro इस humbling scoreboard में 0.37% के साथ आगे है, इसके बाद GPT 5.4 High 0.26% पर, Claude Opus 0.25% पर, और Grok का फ्लैट zero स्कोर है। ये game-like scenarios हैं जिनमें zero instructions हैं जहां मॉडल्स को rules discover करने होते हैं, goals बनाने होते हैं, और strategies को पूरी तरह scratch से execute करना होता है।

यह reset इसलिए matter करता है क्योंकि यह AGI hype cycle को बिल्कुल सही moment पर puncture करता है। Labs ने specifically ARC-AGI-2 पर training करने में millions burn किए, scores को एक साल से कम में 3% से लगभग 50% तक push किया — केवल V3 द्वारा वापस लगभग zero पर knock कर दिए जाने के लिए। Chollet ने इसे intentionally design किया है genuine reasoning को expensive pattern matching और brute force optimization से अलग करने के लिए। Challenge को back करने वाली $1 million prize ने frontier labs का ध्यान पहले के versions की तुलना में कहीं ज्यादा खींचा है।

सबसे revealing pattern है। हर ARC release same cycle trigger करता है: मॉडल्स embarrassed होते हैं, labs problem पर resources throw करती हैं, scores rapidly climb करते हैं, फिर नया version सब कुछ reset कर देता है। V3 पर eventual score improvements actual reasoning breakthroughs represent करेंगे या सिर्फ more sophisticated memorization, यह exactly वो है जो Chollet ने इसे expose करने के लिए build किया है। मॉडल reasoning capabilities पर bet लगाने वाले developers के लिए, ARC-AGI-3 वो reality check है जिसकी आपके product roadmap को जरूरत है।