Les pipelines de diarisation modernes : (1) détection d'activité vocale (trouver les segments avec parole vs silence), (2) extraction d'embeddings de locuteur (convertir chaque segment de parole en un vecteur qui représente les caractéristiques vocales du locuteur avec des modèles comme ECAPA-TDNN), (3) clustering (regrouper les segments avec des embeddings similaires — même locuteur), (4) optionnellement, resegmentation (affiner les limites avec les modèles de locuteurs clustérisés). Le pipeline produit des timestamps étiquetés avec des identifiants de locuteur.
Les systèmes plus récents comme Pyannote, NVIDIA NeMo et WhisperX effectuent la diarisation de bout en bout ou s'intègrent étroitement avec la reconnaissance vocale. WhisperX combine la transcription Whisper avec des timestamps au niveau du mot et la diarisation du locuteur, produisant des transcriptions attribuées par locuteur dans un seul pipeline. Cette intégration gère mieux la parole qui se chevauche que des étapes de pipeline séparées.
Les cas difficiles : la parole qui se chevauche (deux personnes parlent simultanément), les tours de parole courts (brèves interjections), les locuteurs avec des voix similaires (membres d'une même famille), les conditions d'enregistrement variables (un locuteur au téléphone, un autre dans la pièce), et déterminer le nombre de locuteurs (souvent inconnu à l'avance). Les systèmes de pointe atteignent ~5–10 % de taux d'erreur de diarisation sur les jeux de données de benchmark, mais peuvent être pires dans des conditions réelles difficiles.