Diarización de Hablantes: Definición y significado — Wiki de IA

Determinar quién habló cuándo en una grabación de audio con múltiples hablantes. Dada una grabación de reunión, la diarización la segmenta en "Hablante A: 0:00–0:15, Hablante B: 0:15–0:32, Hablante A: 0:32–0:45." Combinada con reconocimiento de voz, esto produce transcripciones atribuidas al hablante — esencial para minutas de reuniones, transcripción de entrevistas y analítica de centros de llamadas.

Por qué importa

El reconocimiento de voz solo produce un bloque de texto sin indicación de quién dijo qué. La diarización agrega la estructura que hace las transcripciones útiles: puedes buscar lo que una persona específica dijo, resumir las contribuciones de cada hablante y analizar la dinámica conversacional (quién habla más, quién interrumpe). Es esencial para cualquier aplicación de audio con múltiples hablantes.

En profundidad

Pipelines de diarización modernos: (1) detección de actividad de voz (encontrar segmentos con habla vs. silencio), (2) extracción de embeddings de hablante (convertir cada segmento de habla en un vector que represente las características vocales del hablante usando modelos como ECAPA-TDNN), (3) clustering (agrupar segmentos con embeddings similares — mismo hablante), (4) opcionalmente, resegmentación (refinar límites usando los modelos de hablante agrupados). El pipeline produce timestamps etiquetados con IDs de hablante.

Enfoques end-to-end

Sistemas más nuevos como Pyannote, NVIDIA NeMo y WhisperX realizan diarización end-to-end o se integran estrechamente con el reconocimiento de voz. WhisperX combina la transcripción de Whisper con timestamps a nivel de palabra y diarización de hablantes, produciendo transcripciones atribuidas al hablante en un solo pipeline. Esta integración maneja mejor el habla superpuesta que las etapas de pipeline separadas.

Desafíos

Casos difíciles: habla superpuesta (dos personas hablando simultáneamente), turnos cortos del hablante (interjecciones breves), hablantes con voces similares (familiares), condiciones de grabación variables (un hablante por teléfono, otro en la sala) y determinar el número de hablantes (frecuentemente no se sabe de antemano). Los sistemas de vanguardia logran ~5–10% de Tasa de Error de Diarización en datasets de referencia pero pueden ser peores en condiciones desafiantes del mundo real.