Andrej Karpathy, ex director de IA de Tesla e investigador de OpenAI, está desafiando la ortodoxia RAG que domina los asistentes de IA personal hoy en día. En lugar del enfoque estándar retrieve-augment-generate que fragmenta documentos y busca en bases de datos vectoriales, Karpathy argumenta que los LLM deberían manejar la indexación y resúmenes internamente para bases de conocimiento personal de menor escala.

Esto desafía la sabiduría predominante en herramientas de IA, donde RAG se ha convertido en la solución por defecto para conectar LLM a datos personales. Cada asistente de IA desde Notion hasta Obsidian sigue el mismo manual: embebe tus documentos, almacena vectores, recupera fragmentos relevantes, alimenta al LLM. El enfoque de Karpathy sugiere que este pipeline introduce complejidad innecesaria y puntos de falla potenciales cuando no estás manejando volúmenes de datos a escala empresarial.

Lo que llama la atención es qué tan pocos detalles técnicos acompañan este cambio. El reporte original carece de especificaciones sobre implementación, comparaciones de rendimiento, o ejemplos concretos de su enfoque nativo de LLM en acción. Sin ver benchmarks reales contra sistemas RAG tradicionales o entender las limitaciones de ventana de contexto dentro de las que está trabajando, es difícil evaluar si esto representa innovación genuina o solo preferencia por una arquitectura diferente.

Para desarrolladores construyendo herramientas de IA personal, esto importa porque cuestiona suposiciones fundamentales sobre recuperación de información. Si Karpathy tiene razón, podríamos estar sobre-ingenierizando soluciones que podrían funcionar mejor con diseños más simples, centrados en LLM. Pero sin detalles de implementación o datos de rendimiento, es prematuro abandonar arquitecturas RAG probadas. La prueba real será ver sistemas funcionando que demuestren recuperación y precisión superior comparado con enfoques tradicionales.