Résumé de texte : Définition et signification — Wiki IA

Générer automatiquement une version plus courte d'un texte qui préserve les informations clés. Le résumé extractif sélectionne et combine les phrases existantes les plus importantes. Le résumé abstractif génère de nouvelles phrases qui capturent le sens — comme un humain résumerait. Les LLM modernes excellent dans le résumé abstractif, produisant des résumés fluides et précis de documents, articles et conversations.

Pourquoi c'est important

La surcharge informationnelle est le défi majeur de l'ère numérique. Le résumé aide : condenser de longs rapports en synthèses exploitables, générer des notes de réunion à partir de transcriptions, créer des résumés pour les articles de recherche, et produire des versions TL;DR d'articles longs. C'est l'une des capacités LLM les plus immédiatement utiles et l'une des plus faciles à intégrer dans les flux de travail existants.

En profondeur

Le résumé extractif identifie les phrases les plus importantes en utilisant des techniques comme TextRank (un algorithme basé sur les graphes inspiré de PageRank) ou le scoring de phrases par BERT. Le résumé est un sous-ensemble des phrases originales, ce qui garantit l'exactitude factuelle mais peut produire un texte maladroit et déconnecté. Le résumé abstractif utilise des modèles séquence-à-séquence (T5, BART ou LLM) pour générer du nouveau texte, produisant des résumés plus fluides mais risquant l'hallucination — ajouter de l'information absente de l'original.

Résumé par LLM

Les LLM ont rendu le résumé pratiquement résolu pour les documents qui tiennent dans la fenêtre de contexte. « Résume cet article en 3 points » produit des résultats étonnamment bons sans aucun fine-tuning. Les défis restants : résumer des documents plus longs que la fenêtre de contexte (nécessitant des stratégies de découpage), maintenir l'exactitude factuelle (les LLM « enrichissent » parfois le résumé avec des détails plausibles mais fabriqués), et contrôler précisément la longueur de sortie.

Patterns pratiques

Patterns de résumé courants en production : map-reduce (découper un long document en morceaux, résumer chaque morceau, puis résumer les résumés), hiérarchique (résumer les sections, puis résumer les résumés de sections), et glissant (maintenir un résumé courant mis à jour au fur et à mesure que du nouveau contenu est ajouté). Pour les transcriptions de réunions, le résumé avec attribution des locuteurs (« Sarah a proposé X, Pierre a soulevé la préoccupation Y ») est plus utile que le résumé générique.