Whisper (OpenAI, 2022) प्रमुख ओपन स्पीच रिकग्निशन मॉडल है। यह एक encoder-decoder Transformer है जिसे वेब से स्क्रैप किए गए 680,000 घंटों के बहुभाषी ऑडियो-टेक्स्ट जोड़ों पर प्रशिक्षित किया गया है। Encoder ऑडियो spectrograms (ध्वनि आवृत्तियों का दृश्य प्रतिनिधित्व) प्रोसेस करता है, और decoder टेक्स्ट टोकन उत्पन्न करता है। Whisper कई कार्य संभालता है: ट्रांसक्रिप्शन, अनुवाद (फ़्रेंच में ऑडियो → अंग्रेज़ी में टेक्स्ट), और भाषा पहचान।
Whisper से पहले, उच्च-गुणवत्ता ट्रांसक्रिप्शन के लिए महंगे व्यावसायिक APIs या डोमेन-विशिष्ट मॉडल की आवश्यकता थी। Whisper ने शून्य लागत पर व्यावसायिक सेवाओं की बराबरी की (मॉडल ओपन-सोर्स है)। इसकी बहुभाषी क्षमता विशेष रूप से मज़बूत है — यह कोड-स्विचिंग (वाक्य के बीच भाषाएँ मिलाना), उच्चारणों, और पृष्ठभूमि शोर को पिछले ओपन मॉडलों से कहीं बेहतर संभालता है।
Whisper बैच प्रोसेसिंग (एक पूर्ण ऑडियो फ़ाइल ट्रांसक्राइब करना) के लिए डिज़ाइन किया गया था, रियल-टाइम स्ट्रीमिंग के लिए नहीं। रियल-टाइम अनुप्रयोगों में ऑडियो को खंडों में विभाजित करना और उन्हें क्रमिक रूप से ट्रांसक्राइब करना होता है, जो शब्द सीमाओं और संदर्भ के बारे में जटिलता जोड़ता है। Deepgram, AssemblyAI जैसी विशेष सेवाएँ रियल-टाइम स्ट्रीमिंग APIs प्रदान करती हैं। चुनाव आपकी विलंबता आवश्यकताओं पर निर्भर करता है: पॉडकास्ट ट्रांसक्रिप्शन के लिए बैच, लाइव कैप्शनिंग के लिए स्ट्रीमिंग।