Le pipeline d'IE a traditionnellement trois étapes : extraction d'entités (trouver toutes les mentions de personnes, organisations, dates, montants), extraction de relations (déterminer les relations : « L'entreprise X a acquis l'entreprise Y pour Z $ »), et résolution de coréférence (reconnaître que « l'entreprise », « Apple » et « elle » réfèrent toutes à la même entité). Chaque étape s'appuie sur la précédente pour produire de l'information structurée et liée.
Les LLM ont condensé le pipeline d'IE en un seul prompt : « Extrais toutes les entreprises, personnes, montants et dates de ce texte. Pour chacun, identifie leurs relations. Retourne en JSON. » Ça fonctionne remarquablement bien pour les tâches d'extraction courantes et élimine le besoin de modèles séparés pour chaque sous-tâche. Le compromis : l'extraction par LLM est plus lente et plus chère que les modèles dédiés, et moins prévisible dans le format de sortie (les modes de sortie structurée aident).
L'IE moderne va au-delà du texte : les modèles de compréhension de documents (LayoutLM, Donut) extraient de l'information de documents visuellement riches (factures, reçus, formulaires) en comprenant à la fois le contenu textuel et la disposition spatiale. « Total : 42,50 $ » en bas à droite d'une facture signifie quelque chose de différent que le même texte dans un paragraphe. Ces modèles combinent OCR, analyse de disposition et NLP pour extraire des données structurées de documents réels.