检索：定义与含义 — AI 维基

从大型集合中根据查询找到相关文档、段落或数据的过程。在 AI 中，检索是 RAG 中的“R”——在将相关上下文提供给语言模型之前获取它的步骤。检索可以使用关键词匹配（BM25）、语义相似性（嵌入向量）或结合两者的混合方法。

为什么重要

检索使 LLM 在现实世界应用中变得实用。模型的内部知识是静态的、不完整的，有时是错误的。检索在推理时为模型提供最新、准确、特定领域的信息。检索流水线的质量直接决定了 RAG 系统的质量——最好的 LLM 也无法从糟糕的上下文中生成好的回答。

深度解析

传统检索（BM25、TF-IDF）将查询关键词与文档关键词匹配，按频率和重要性加权。它速度快、可解释性强，在精确匹配方面表现出色。语义检索将查询和文档编码为嵌入向量，在向量空间中寻找最近邻。它能处理同义替换和概念相似性，但可能遗漏精确的关键词匹配。混合检索结合两者，通常使用倒数排名融合来合并结果。

分块策略

对于 RAG，文档在嵌入之前必须被分割成块。块大小是一个关键的设计决策：太小会丢失上下文，太大会用噪声稀释相关信息。常见策略包括带重叠的固定大小块、句子级分割、段落级分割以及尊重文档结构（标题、章节）的递归分割。最佳方法取决于你的文档和查询。

重新排序

一种常见模式：使用快速检索获取一组广泛的候选（比如 50 个），然后使用更准确（但更慢）的模型重新排序。交叉编码器重排器（如 Cohere Rerank 或 BGE-Reranker）一起处理查询-文档对，产生比嵌入相似性更准确的相关性分数。这种两阶段流水线平衡了速度（快速初始检索）和准确性（对顶部候选的精确重排）。

检索

为什么重要

深度解析

分块策略

重新排序

相关概念