Un graphe de connaissances stocke la connaissance sous forme de triplets (sujet, prédicat, objet) : (Albert Einstein, né_à, Ulm), (Ulm, situé_en, Allemagne). Ces triplets forment un graphe où les entités sont des nœuds et les relations sont des arêtes. Tu peux parcourir le graphe pour répondre à des questions en plusieurs sauts : « Où est le lieu de naissance de la personne qui a développé la relativité générale ? » suit Einstein → né_à → Ulm → situé_en → Allemagne.
L'intégration des graphes de connaissances avec les LLM prend plusieurs formes : utiliser les KG comme source pour le RAG (récupérer des sous-graphes pertinents pour une requête), utiliser les LLM pour peupler les KG (extraire entités et relations du texte), et utiliser les KG pour vérifier les sorties des LLM (vérifier les faits énoncés par rapport au graphe). GraphRAG (Microsoft) utilise des LLM pour construire un graphe de connaissances à partir de documents, puis interroge ce graphe pour une récupération plus structurée que la simple recherche vectorielle.
Construire un graphe de connaissances nécessite : l'extraction d'entités (identifier les personnes, lieux, concepts dans le texte), l'extraction de relations (identifier comment les entités sont liées), la résolution d'entités (reconnaître que « NYC », « New York City » et « la Grosse Pomme » sont la même entité), et la conception du schéma (définir quels types d'entités et de relations existent). Les LLM ont rendu chacune de ces étapes moins coûteuse et plus précise, démocratisant la construction de KG pour les organisations qui ne pouvaient auparavant pas se permettre l'effort manuel.