El grounding es la práctica de anclar las respuestas de un modelo a información externa verificable, y existe porque los modelos de lenguaje tienen una limitación arquitectónica fundamental: no saben lo que saben. Los datos de entrenamiento de un modelo están integrados en sus pesos como patrones estadísticos, no como una base de datos consultable de hechos. No puede verificar si una afirmación específica está en su dataset de entrenamiento ni cotejar una fecha con una fuente confiable. El grounding compensa esto dando al modelo acceso a datos autoritativos en tiempo de inferencia, para que pueda basar sus respuestas en evidencia proporcionada en lugar de recuerdos estadísticos.
La técnica de grounding más común en producción hoy es retrieval-augmented generation (RAG). El patrón básico es directo: toma la pregunta del usuario, úsala para buscar en una base de conocimiento (generalmente una base de datos vectorial con fragmentos de documentos embebidos), recupera los pasajes más relevantes e inclúyelos en el contexto del modelo junto con la pregunta. El modelo entonces genera una respuesta basada en esos pasajes recuperados. Vertex AI de Google, Amazon Bedrock y la mayoría de las plataformas de IA empresarial ofrecen pipelines de RAG como servicios administrados. La idea clave es que estás cambiando el trabajo del modelo de “recordar hechos del entrenamiento” a “sintetizar una respuesta a partir de documentos proporcionados” — una tarea en la que los modelos son mucho más confiables.
El grounding con búsqueda web toma un enfoque diferente. En lugar de buscar en una base de conocimiento privada, el modelo consulta la web en vivo e incorpora resultados en su respuesta. Perplexity construyó todo su producto alrededor de esta idea. Los modelos Gemini de Google pueden acceder a Google Search directamente. La función de navegación de ChatGPT hace un trabajo similar. La ventaja sobre RAG es la frescura — el grounding con búsqueda web puede responder preguntas sobre eventos que ocurrieron ayer, mientras que un sistema RAG solo está tan actualizado como su última indexación. La desventaja es que la web misma contiene desinformación, así que estás intercambiando una fuente de error por otra.
Los requerimientos de citación son una forma más ligera de grounding que funciona a nivel de prompt. Cuando le dices a un modelo “Solo haz afirmaciones que puedas atribuir a los documentos proporcionados, y cita tus fuentes en línea”, no le estás dando nuevas capacidades — estás restringiendo su comportamiento para que se mantenga más cerca del material verificable. Esto funciona sorprendentemente bien en la práctica, especialmente con modelos capaces como Claude o GPT-4. El modelo frecuentemente se negará a responder o marcará explícitamente su incertidumbre en lugar de fabricar una cita, porque generar una cita falsa que se vea estructuralmente correcta es más difícil que simplemente decir “no tengo esa información”. Dicho esto, el grounding por citación no es infalible. Los modelos aún pueden alucinar citas que parecen plausibles pero referencian la sección equivocada o tergiversan lo que una fuente realmente dice.
Una trampa práctica del grounding es la dependencia excesiva de la calidad del retrieval. Si tu pipeline de RAG recupera fragmentos irrelevantes — porque los embeddings no capturaron la intención de la consulta, o la estrategia de fragmentación dividió un pasaje crítico entre dos fragmentos — el modelo basará su respuesta en el material equivocado y producirá una respuesta confidencialmente errónea con citas. El grounding no elimina la alucinación; cambia el modo de falla. En lugar de que el modelo invente hechos de la nada, ahora puede malinterpretar o extrapolar demasiado a partir de fuentes reales. Un buen grounding requiere un buen retrieval, lo que significa invertir en calidad de embeddings, tamaño de fragmentos, reranking y evaluación — no solo conectar una base de datos vectorial a tu pipeline y dar el trabajo por hecho.