Pipelines de diarización modernos: (1) detección de actividad de voz (encontrar segmentos con habla vs. silencio), (2) extracción de embeddings de hablante (convertir cada segmento de habla en un vector que represente las características vocales del hablante usando modelos como ECAPA-TDNN), (3) clustering (agrupar segmentos con embeddings similares — mismo hablante), (4) opcionalmente, resegmentación (refinar límites usando los modelos de hablante agrupados). El pipeline produce timestamps etiquetados con IDs de hablante.
Sistemas más nuevos como Pyannote, NVIDIA NeMo y WhisperX realizan diarización end-to-end o se integran estrechamente con el reconocimiento de voz. WhisperX combina la transcripción de Whisper con timestamps a nivel de palabra y diarización de hablantes, produciendo transcripciones atribuidas al hablante en un solo pipeline. Esta integración maneja mejor el habla superpuesta que las etapas de pipeline separadas.
Casos difíciles: habla superpuesta (dos personas hablando simultáneamente), turnos cortos del hablante (interjecciones breves), hablantes con voces similares (familiares), condiciones de grabación variables (un hablante por teléfono, otro en la sala) y determinar el número de hablantes (frecuentemente no se sabe de antemano). Los sistemas de vanguardia logran ~5–10% de Tasa de Error de Diarización en datasets de referencia pero pueden ser peores en condiciones desafiantes del mundo real.