Extraction d'information : Définition et signification — Wiki IA

Extraire automatiquement de l'information structurée à partir de texte non structuré. À partir d'un article de presse, extraire : qui a fait quoi, quand, où et pourquoi. À partir d'un contrat, extraire : parties, dates, obligations et montants. L'IE combine la NER (trouver les entités), l'extraction de relations (trouver les connexions entre entités), et l'extraction d'événements (trouver ce qui s'est passé) dans un pipeline unifié.

Pourquoi c'est important

La plupart de l'information mondiale est piégée dans du texte non structuré — courriels, rapports, articles, documents juridiques, dossiers médicaux. L'extraction d'information transforme ce texte en données structurées qui peuvent être recherchées, analysées et exploitées. C'est la technologie qui te permet de poser une question de type base de données sur une pile de documents.

En profondeur

Le pipeline d'IE a traditionnellement trois étapes : extraction d'entités (trouver toutes les mentions de personnes, organisations, dates, montants), extraction de relations (déterminer les relations : « L'entreprise X a acquis l'entreprise Y pour Z $ »), et résolution de coréférence (reconnaître que « l'entreprise », « Apple » et « elle » réfèrent toutes à la même entité). Chaque étape s'appuie sur la précédente pour produire de l'information structurée et liée.

Les LLM ont tout changé

Les LLM ont condensé le pipeline d'IE en un seul prompt : « Extrais toutes les entreprises, personnes, montants et dates de ce texte. Pour chacun, identifie leurs relations. Retourne en JSON. » Ça fonctionne remarquablement bien pour les tâches d'extraction courantes et élimine le besoin de modèles séparés pour chaque sous-tâche. Le compromis : l'extraction par LLM est plus lente et plus chère que les modèles dédiés, et moins prévisible dans le format de sortie (les modes de sortie structurée aident).

Compréhension de documents

L'IE moderne va au-delà du texte : les modèles de compréhension de documents (LayoutLM, Donut) extraient de l'information de documents visuellement riches (factures, reçus, formulaires) en comprenant à la fois le contenu textuel et la disposition spatiale. « Total : 42,50 $ » en bas à droite d'une facture signifie quelque chose de différent que le même texte dans un paragraphe. Ces modèles combinent OCR, analyse de disposition et NLP pour extraire des données structurées de documents réels.