Pipelines modernos de diarização: (1) detecção de atividade vocal (encontrar segmentos com fala vs. silêncio), (2) extração de embedding de falante (converter cada segmento de fala em um vetor que representa as características vocais do falante usando modelos como ECAPA-TDNN), (3) clustering (agrupar segmentos com embeddings similares — mesmo falante), (4) opcionalmente, re-segmentação (refinar limites usando os modelos de falantes agrupados). O pipeline produz timestamps rotulados com IDs de falantes.
Sistemas mais recentes como Pyannote, NVIDIA NeMo e WhisperX realizam diarização end-to-end ou integram-se intimamente com reconhecimento de fala. O WhisperX combina transcrição Whisper com timestamps em nível de palavra e diarização de falantes, produzindo transcrições atribuídas por falante em um único pipeline. Essa integração lida melhor com fala sobreposta do que estágios separados do pipeline.
Casos difíceis: fala sobreposta (duas pessoas falando simultaneamente), turnos curtos de fala (interjections breves), falantes com vozes parecidas (membros da família), condições de gravação variadas (um falante no telefone, outro na sala) e determinar o número de falantes (frequentemente desconhecido de antemão). Sistemas estado da arte alcançam ~5–10% de Diarization Error Rate em datasets de benchmark, mas podem ser piores em condições desafiadoras do mundo real.