將口語音訊轉換為文字。現代語音辨識使用深度學習模型(最著名的是 OpenAI 的 Whisper),能以接近人類的準確度轉錄 100 多種語言的音訊。該技術為語音助手、會議轉錄、字幕生成和無障礙工具提供支持。
語音辨識將語音作為 AI 的輸入方式解鎖。結合 LLM 和文字轉語音,它實現了完全由語音驅動的 AI 互動。Whisper 的開源發布使高品質轉錄民主化 — 你可以在本地免費運行它。對於無障礙功能來說,這是變革性的:使音訊內容可搜尋、可翻譯,並可供聾人和聽障使用者使用。
Whisper(OpenAI,2022 年)是主流的開源語音辨識模型。它是一個編碼器-解碼器 Transformer,在從網路上抓取的 680,000 小時多語言音訊-文字配對上訓練。編碼器處理音訊頻譜圖(聲音頻率的視覺表示),解碼器生成文字 token。Whisper 處理多種任務:轉錄、翻譯(法語音訊 → 英語文字)和語言辨識。
在 Whisper 之前,高品質轉錄需要昂貴的商業 API 或領域特定的模型。Whisper 以零成本匹配了商業服務(模型是開源的)。其多語言能力尤其強大 — 它處理語碼轉換(句中混合語言)、口音和背景噪音的能力遠優於之前的開源模型。較大的 Whisper 變體(large-v3)在乾淨音訊方面接近人類水平的準確度。
Whisper 設計用於批次處理(轉錄完整的音訊檔案),而非即時串流。即時應用需要將音訊分割成片段並逐步轉錄,這增加了關於詞彙邊界和上下文的複雜性。專業模型和服務(Deepgram、AssemblyAI)提供即時串流 API。選擇取決於你的延遲需求:批次用於播客轉錄,串流用於即時字幕。