語音辨識：定義與含義 — AI 維基

將口語音訊轉換為文字。現代語音辨識使用深度學習模型（最著名的是 OpenAI 的 Whisper），能以接近人類的準確度轉錄 100 多種語言的音訊。該技術為語音助手、會議轉錄、字幕生成和無障礙工具提供支持。

為什麼重要

語音辨識將語音作為 AI 的輸入方式解鎖。結合 LLM 和文字轉語音，它實現了完全由語音驅動的 AI 互動。Whisper 的開源發布使高品質轉錄民主化 — 你可以在本地免費運行它。對於無障礙功能來說，這是變革性的：使音訊內容可搜尋、可翻譯，並可供聾人和聽障使用者使用。

深度解析

Whisper（OpenAI，2022 年）是主流的開源語音辨識模型。它是一個編碼器-解碼器 Transformer，在從網路上抓取的 680,000 小時多語言音訊-文字配對上訓練。編碼器處理音訊頻譜圖（聲音頻率的視覺表示），解碼器生成文字 token。Whisper 處理多種任務：轉錄、翻譯（法語音訊 → 英語文字）和語言辨識。

準確度的飛躍

在 Whisper 之前，高品質轉錄需要昂貴的商業 API 或領域特定的模型。Whisper 以零成本匹配了商業服務（模型是開源的）。其多語言能力尤其強大 — 它處理語碼轉換（句中混合語言）、口音和背景噪音的能力遠優於之前的開源模型。較大的 Whisper 變體（large-v3）在乾淨音訊方面接近人類水平的準確度。

即時 vs. 批次

Whisper 設計用於批次處理（轉錄完整的音訊檔案），而非即時串流。即時應用需要將音訊分割成片段並逐步轉錄，這增加了關於詞彙邊界和上下文的複雜性。專業模型和服務（Deepgram、AssemblyAI）提供即時串流 API。選擇取決於你的延遲需求：批次用於播客轉錄，串流用於即時字幕。

語音辨識

為什麼重要

深度解析

準確度的飛躍

即時 vs. 批次

相關概念