xAI ने इस हफ़्ते Grok Imagine Video 1.5 जारी किया, जो उसके image-to-video मॉडल का अपडेट है, और इसका सबसे बड़ा फीचर वीडियो नहीं बल्कि आवाज़ है। यह मॉडल अब एक ही inference step में सिंक्रनाइज़्ड ऑडियो और वीडियो बनाता है, यानी साउंड इफेक्ट्स, ऐम्बियंट नॉइज़ और किरदारों के संवाद lip-sync के साथ तस्वीर के साथ ही तैयार होते हैं, न कि बाद में चिपकाए गए किसी अलग पास के रूप में। ज़्यादातर वीडियो जेनरेटर आज भी आपको एक खामोश क्लिप थमा देते हैं और ऑडियो आप पर छोड़ देते हैं, ऐसे में दोनों को एक साथ, एक ही बार में करना ही गौर करने लायक बात है।

दूसरा फोकस physics पर है। xAI का कहना है कि 1.5 एक अकेली स्थिर तस्वीर को सुसंगत मोशन और ज़्यादा यथार्थवादी भौतिक व्यवहार वाले पूरे दृश्य में बदल देता है, जैसे fluid dynamics, उठती हुई भाप, काँच जैसी पारदर्शी सामग्री, और किसी लंबे सीक्वेंस में कैमरे के घूमने के साथ किसी वस्तु के वज़न का बेहतर एहसास, उन विकृतियों और artifacts के साथ जो आमतौर पर AI वीडियो की पोल खोलते हैं, अब कम दिखते हैं। physics वीडियो जेनरेशन का सबसे कठिन हिस्सा है, वही जगह जहाँ जेनरेट की गई क्लिप्स अक्सर खुद की कलई खोल देती हैं, इसलिए मोशन की निरंतरता और सामग्री की यथार्थता पर खुलकर ज़ोर देना सही दिशा में बढ़ना है।

यह रिलीज़ स्पीड पर भी टिकी है। Grok Imagine Video 1.5 Fast नाम का एक वैरिएंट पिछले संस्करण के मुकाबले generation स्पीड को लगभग दोगुना कर देता है, और छह सेकंड की 720p क्लिप करीब 25 सेकंड में बना देता है, जबकि पहले इसमें 40 से ज़्यादा सेकंड लगते थे। पूरा 1.5 मॉडल xAI के Imagine API के ज़रिए आम तौर पर उपलब्ध है, और Fast संस्करण grok.com/imagine तथा iOS और Android ऐप्स पर लाइव है, जो इसे एक साथ उपभोक्ताओं और डेवलपर्स दोनों के सामने रख देता है।

यह रिलीज़ एक भीड़भाड़ वाले और तेज़ी से बदलते मैदान में आई है। image-to-video और text-to-video जेनरेटिव AI के सबसे प्रतिस्पर्धी मोर्चों में से एक बन गए हैं, जहाँ Kling, Runway, Google की Genie सीरीज़ और दूसरे सभी लंबाई, नियंत्रण और यथार्थता पर ज़ोर दे रहे हैं, और नेटिव ऑडियो तेज़ी से वह चीज़ बनता जा रहा है जो हर किसी के पास होनी ज़रूरी है। इस श्रेणी के लिए ईमानदार चेतावनियाँ वही पुरानी हैं, किसी मॉडल की अपनी डेमो रील और खुद बताए गए स्पीड के आँकड़े कोई स्वतंत्र बेंचमार्क नहीं होते, और ऑडियो विज़ुअल सिंक ठीक उसी किस्म का फीचर है जो लॉन्च क्लिप में बेदाग़ दिखता है और मुश्किल, लंबे या अजीब प्रॉम्प्ट्स पर बिखर जाता है। मगर दिशा काफ़ी साफ़ है, और मॉडल आज़माने के लिए पहले से ही उपलब्ध है, जो इन दावों को हकीकत से मिलाने का सबसे तेज़ रास्ता है।