El desglose detallado de un desarrollador sobre la construcción de un "motor de contexto" resalta lo que los equipos RAG de producción han estado resolviendo en silencio: la recuperación funciona, pero gestionar lo que realmente entra en la ventana de contexto del LLM no. El sistema, implementado en Python puro con benchmarks medibles, controla explícitamente la memoria, compresión, re-ranking y presupuestos de tokens — abordando la brecha entre recuperación cruda y construcción de prompts donde la mayoría de implementaciones RAG fallan.
Esto se mapea directamente con lo que cubrí cuando Karpathy abandonó RAG por gestión de conocimiento nativa de LLM en abril. El problema fundamental no es la precisión de recuperación — es arquitectónico. Los tutoriales de RAG terminan en "recuperar documentos, meter en prompt", pero los sistemas de producción necesitan decisiones deliberadas sobre el flujo de información. Cuando el contexto recuperado son 6,000 caracteres pero tu presupuesto es 1,800 tokens, cuando documentos casi duplicados desplazan a los útiles, cuando el historial de conversación del primer turno sigue ocupando espacio veinte turnos después — ahí es donde RAG básico se rompe.
La comunidad más amplia está convergiendo en este mismo problema desde diferentes ángulos. El repositorio RAG Techniques de 27,000 estrellas enfatiza arquitecturas de cinco capas que manejan modos de falla secuencialmente. Otros desarrolladores están implementando búsqueda híbrida BM25 + vectorial con re-ranking de cross-encoder, o abandonando RAG completamente por bases de conocimiento markdown mantenidas por LLM. Lo que conecta estos enfoques es control explícito sobre la composición del contexto en lugar de esperar que recuperación + prompting de alguna manera funcione a escala.
Para equipos ejecutando chatbots multi-turno o sistemas RAG con grandes bases de conocimiento, esto no es teórico. La gestión de contexto se convierte en el cuello de botella dentro de los primeros turnos de conversación. La elección es construir esta capa deliberadamente o ver tu sistema degradarse mientras el contexto se acumula — lo que explica por qué los equipos de producción están invirtiendo tiempo de ingeniería en lo que teóricamente debería resolverse con mejor prompting.
