xAI के Grok Voice Think Fast 1.0 ने τ-voice Bench पर 67.3% के साथ टॉप किया, लेकिन बेंचमार्क xAI का अपना है

xAI ने आज grok-voice-think-fast-1.0 जारी किया, τ-voice Bench पर 67.3% के साथ पहला स्थान दावा करते हुए — Gemini 3.1 Flash Live (43.8%), अपने ही Grok Voice Fast 1.0 (38.3%), और GPT Realtime 1.5 (35.3%) से काफी आगे। वर्टिकल ब्रेकडाउन और भी ज़्यादा एकतरफ़ा हैं: टेलीकॉम में मॉडल 73.7% पर है जबकि Gemini 21.9% और GPT Realtime 21.1% पर। रिटेल 62.3%, एयरलाइन 66%। हर मोर्चे पर बड़े गैप, और xAI फुल-डुप्लेक्स वॉयस एजेंट कैटेगरी पर गंभीर दावा कर रहा है।

लीडरबोर्ड से एक सेकंड पीछे हटो। τ-voice Bench xAI का बेंचमार्क है, Sierra के τ-bench फ्रेमवर्क पर आधारित पर शोर वाले ऑडियो, उच्चारणों और इंटरप्शन हैंडलिंग तक बढ़ाया गया। खुद से ग्रेड किए बेंचमार्क अपने आप ग़लत नहीं होते, लेकिन तुलना सेट को भी ध्यान से पढ़ना चाहिए: Gemini 3.1 Flash Live Google का सस्ता, कम-लेटेंसी वॉयस टियर है, टॉप-एंड मॉडल नहीं, और GPT Realtime 1.5 OpenAI का पुराना वॉयस प्रोडक्ट है, अभी जो वे पका रहे हैं वह नहीं। xAI ने Gemini 3.1 Pro Live के खिलाफ या Sierra और PolyAI के प्रोडक्शन-डिप्लॉयड वॉयस स्टैक्स के खिलाफ बेंचमार्क नहीं किया। बढ़त असली है, पर तुलना क्यूरेटेड है।

ज़्यादा उपयोगी डेटा पॉइंट घोषणा में नीचे दबा है: grok-voice-think-fast-1.0 पहले से Starlink के लाइव फ़ोन ऑपरेशन चला रहा है। उस डिप्लॉयमेंट से xAI जो आंकड़े प्रकाशित करता है वे हैं फ़ोन पूछताछ पर 20% सेल्स कन्वर्शन, सपोर्ट पर 70% ऑटोनॉमस रिज़ॉल्यूशन, सैकड़ों वर्कफ़्लो में 28 अलग-अलग टूल्स, और 25+ भाषा सपोर्ट। ये एक ग्राहक आधार से आए प्रोडक्शन मेट्रिक्स हैं जो ख़राब एजेंट के लिए लाइन पर नहीं रहते। "ज़ीरो ऐडेड लेटेंसी के साथ बैकग्राउंड रीज़निंग" फ्रेमिंग — स्पीच जनरेशन के साथ रीज़निंग पासेज़ को सीरियल के बजाय पैरलल चलाना — यह पुराने वॉयस एजेंट्स की समस्या का सही आर्किटेक्चरल जवाब है, जहां जवाब देने से पहले आप मॉडल को सोचते सुनते थे।

वॉयस प्रोडक्ट्स बना रहे डेवलपर्स के लिए ईमानदार निष्कर्ष यह है कि API असली मूल्यांकन के लायक है, खासकर यदि आपके पास शोर वाला फ़ोन ऑडियो है या बातचीत के बीच में टूल कॉल चाहिए। τ-voice Bench के नंबरों को धर्मग्रंथ की तरह मत लो: अपने ख़ुद के कन्वर्सेशन फ़्लो को Gemini 3 Pro Live और OpenAI के gpt-realtime के खिलाफ़, अपने ख़ुद के ऑडियो पर, अपने ख़ुद के टूल्स के साथ चलाओ, इससे पहले कि आप कमिट करें। Starlink डिप्लॉयमेंट सबसे मज़बूत सबूत है कि मॉडल सच में प्रोडक्शन-ग्रेड है; लीडरबोर्ड सबसे कमज़ोर। xAI ने अभी प्राइसिंग या लेटेंसी टार्गेट प्रकाशित नहीं किए हैं, और किसी भी असली कॉल सेंटर के लिए इसे मूल्यांकन कर रहे व्यक्ति को आगे यही सवाल जवाब चाहिए होंगे।

xAI के Grok Voice Think Fast 1.0 ने τ-voice Bench पर 67.3% के साथ टॉप किया, लेकिन बेंचमार्क xAI का अपना है

और समाचार