說話者分離：定義與含義 — AI 維基

在多人音訊錄音中判斷誰在何時說話。給定一段會議錄音，分離結果為「說話者 A：0:00–0:15，說話者 B：0:15–0:32，說話者 A：0:32–0:45」。結合語音辨識，這能產生標註說話者的逐字稿——對會議記錄、訪談轉錄和客服中心分析至關重要。

為什麼重要

單純的語音辨識只產生一整面文字，沒有標示誰說了什麼。分離技術增加了讓逐字稿有用的結構：你可以搜尋特定人物說了什麼、摘要每位說話者的貢獻，並分析對話動態（誰說最多、誰打斷別人）。這對任何多說話者音訊應用都是必不可少的。

深度解析

現代分離流程：(1) 語音活動偵測（找出有語音 vs. 靜音的片段），(2) 說話者嵌入擷取（使用 ECAPA-TDNN 等模型將每個語音片段轉換為代表說話者聲音特徵的向量），(3) 聚類（將嵌入相似的片段分組——同一說話者），(4) 可選地，重新分段（使用聚類後的說話者模型精緻化邊界）。流程產生標有說話者 ID 的時間戳。

端到端方法

更新的系統如 Pyannote、NVIDIA NeMo 和 WhisperX 可端到端執行分離或與語音辨識緊密整合。WhisperX 結合 Whisper 轉錄、詞級時間戳和說話者分離，在一個流程中產生標註說話者的逐字稿。這種整合比分離的流程階段更能處理重疊語音。

挑戰

困難案例：重疊語音（兩人同時說話）、短暫的說話者轉換（簡短的插話）、聲音相似的說話者（家庭成員）、不同的錄音條件（一人用電話，另一人在房間裡），以及確定說話者數量（通常事先不知道）。最先進的系統在基準資料集上達到約 5–10% 的分離錯誤率，但在挑戰性的真實世界條件下可能更差。