Diarisation du locuteur : Définition et signification — Wiki IA

Déterminer qui a parlé quand dans un enregistrement audio avec plusieurs locuteurs. À partir d'un enregistrement de réunion, la diarisation le segmente en « Locuteur A : 0:00–0:15, Locuteur B : 0:15–0:32, Locuteur A : 0:32–0:45. » Combinée avec la reconnaissance vocale, ça produit des transcriptions attribuées par locuteur — essentiel pour les procès-verbaux de réunions, la transcription d'entrevues et l'analytique des centres d'appels.

Pourquoi c'est important

La reconnaissance vocale seule produit un mur de texte sans indication de qui a dit quoi. La diarisation ajoute la structure qui rend les transcriptions utiles : tu peux chercher ce qu'une personne spécifique a dit, résumer les contributions de chaque locuteur, et analyser la dynamique conversationnelle (qui parle le plus, qui interrompt). C'est essentiel pour toute application audio multi-locuteurs.

En profondeur

Les pipelines de diarisation modernes : (1) détection d'activité vocale (trouver les segments avec parole vs silence), (2) extraction d'embeddings de locuteur (convertir chaque segment de parole en un vecteur qui représente les caractéristiques vocales du locuteur avec des modèles comme ECAPA-TDNN), (3) clustering (regrouper les segments avec des embeddings similaires — même locuteur), (4) optionnellement, resegmentation (affiner les limites avec les modèles de locuteurs clustérisés). Le pipeline produit des timestamps étiquetés avec des identifiants de locuteur.

Approches de bout en bout

Les systèmes plus récents comme Pyannote, NVIDIA NeMo et WhisperX effectuent la diarisation de bout en bout ou s'intègrent étroitement avec la reconnaissance vocale. WhisperX combine la transcription Whisper avec des timestamps au niveau du mot et la diarisation du locuteur, produisant des transcriptions attribuées par locuteur dans un seul pipeline. Cette intégration gère mieux la parole qui se chevauche que des étapes de pipeline séparées.

Les défis

Les cas difficiles : la parole qui se chevauche (deux personnes parlent simultanément), les tours de parole courts (brèves interjections), les locuteurs avec des voix similaires (membres d'une même famille), les conditions d'enregistrement variables (un locuteur au téléphone, un autre dans la pièce), et déterminer le nombre de locuteurs (souvent inconnu à l'avance). Les systèmes de pointe atteignent ~5–10 % de taux d'erreur de diarisation sur les jeux de données de benchmark, mais peuvent être pires dans des conditions réelles difficiles.