知识图谱通过提供 LLM 可以查询而非臆造的结构化、可验证的事实来补充 LLM。虽然 LLM 将知识隐式存储在权重中(有时会出错),知识图谱将其显式存储在可验证和更新的三元组中。LLM(用于理解自然语言)与知识图谱(用于基于事实的锚定)的结合是企业 AI 的强大模式。
知识图谱以(主语,谓语,宾语)三元组存储知识:(阿尔伯特·爱因斯坦,出生于,乌尔姆),(乌尔姆,位于,德国)。这些三元组形成一个图,其中实体是节点,关系是边。你可以遍历图来回答多跳问题:"发展广义相对论的人出生在哪里?"沿着 爱因斯坦 → 出生于 → 乌尔姆 → 位于 → 德国 的路径。
知识图谱与 LLM 的集成有几种形式:使用知识图谱作为 RAG 的来源(为查询检索相关子图)、使用 LLM 填充知识图谱(从文本中提取实体和关系),以及使用知识图谱验证 LLM 输出(将陈述的事实与图谱进行核对)。GraphRAG(Microsoft)使用 LLM 从文档构建知识图谱,然后查询该图谱以实现比纯向量搜索更结构化的检索。
构建知识图谱需要:实体提取(在文本中识别人物、地点、概念)、关系提取(识别实体之间的关系)、实体解析(识别"纽约"、"纽约市"和"大苹果城"是同一实体),以及模式设计(定义存在哪些类型的实体和关系)。LLM 使这些步骤中的每一步都更便宜、更准确,为以前负担不起手动工作的组织民主化了知识图谱构建。