Zubnet AI學習Wiki › Speaker Diarization
使用AI

說話者分離

別名:誰在何時說話
在多人音訊錄音中判斷誰在何時說話。給定一段會議錄音,分離結果為「說話者 A:0:00–0:15,說話者 B:0:15–0:32,說話者 A:0:32–0:45」。結合語音辨識,這能產生標註說話者的逐字稿——對會議記錄、訪談轉錄和客服中心分析至關重要。

為什麼重要

單純的語音辨識只產生一整面文字,沒有標示誰說了什麼。分離技術增加了讓逐字稿有用的結構:你可以搜尋特定人物說了什麼、摘要每位說話者的貢獻,並分析對話動態(誰說最多、誰打斷別人)。這對任何多說話者音訊應用都是必不可少的。

深度解析

現代分離流程:(1) 語音活動偵測(找出有語音 vs. 靜音的片段),(2) 說話者嵌入擷取(使用 ECAPA-TDNN 等模型將每個語音片段轉換為代表說話者聲音特徵的向量),(3) 聚類(將嵌入相似的片段分組——同一說話者),(4) 可選地,重新分段(使用聚類後的說話者模型精緻化邊界)。流程產生標有說話者 ID 的時間戳。

端到端方法

更新的系統如 Pyannote、NVIDIA NeMo 和 WhisperX 可端到端執行分離或與語音辨識緊密整合。WhisperX 結合 Whisper 轉錄、詞級時間戳和說話者分離,在一個流程中產生標註說話者的逐字稿。這種整合比分離的流程階段更能處理重疊語音。

挑戰

困難案例:重疊語音(兩人同時說話)、短暫的說話者轉換(簡短的插話)、聲音相似的說話者(家庭成員)、不同的錄音條件(一人用電話,另一人在房間裡),以及確定說話者數量(通常事先不知道)。最先進的系統在基準資料集上達到約 5–10% 的分離錯誤率,但在挑戰性的真實世界條件下可能更差。

← 所有術語
ESC