现代说话人分离管线:(1)语音活动检测(找到有语音的片段 vs 静音),(2)说话人嵌入提取(使用ECAPA-TDNN等模型将每个语音片段转换为代表说话人声音特征的向量),(3)聚类(将嵌入相似的片段分组——同一说话人),(4)可选地,重新分割(使用聚类后的说话人模型细化边界)。管线产生带说话人ID标签的时间戳。
较新的系统如Pyannote、NVIDIA NeMo和WhisperX端到端执行说话人分离或与语音识别紧密集成。WhisperX将Whisper转录与词级时间戳和说话人分离结合,在一个管线中产生带说话人标注的转录稿。这种集成比分离的管线阶段更好地处理重叠语音。
困难情况:重叠语音(两人同时说话)、短说话人轮次(简短插话)、声音相似的说话人(家庭成员)、不同的录音条件(一人在电话上,另一人在房间里),以及确定说话人数量(你通常事先不知道)。最先进的系统在基准数据集上达到约5–10%的分离错误率,但在具有挑战性的真实世界条件下可能更差。