Andrej Karpathy, ex-diretor de IA da Tesla e pesquisador da OpenAI, está confrontando a ortodoxia RAG que domina assistentes de IA pessoais hoje. Em vez da abordagem padrão retrieve-augment-generate que fragmenta documentos e busca em bancos de dados vetoriais, Karpathy argumenta que LLMs deveriam gerenciar indexação e resumos internamente para bases de conhecimento pessoal de menor escala.
Isso desafia a sabedoria predominante em ferramentas de IA, onde RAG se tornou a solução padrão para conectar LLMs a dados pessoais. Todo assistente de IA do Notion ao Obsidian segue o mesmo playbook: incorpore seus documentos, armazene vetores, recupere fragmentos relevantes, alimente o LLM. A abordagem de Karpathy sugere que esse pipeline introduz complexidade desnecessária e potenciais pontos de falha quando você não está lidando com volumes de dados em escala empresarial.
O que chama atenção é quão poucos detalhes técnicos acompanham essa mudança. A reportagem original carece de especificações sobre implementação, comparações de performance, ou exemplos concretos de sua abordagem nativa de LLM em ação. Sem ver benchmarks reais contra sistemas RAG tradicionais ou entender as limitações de janela de contexto dentro das quais ele está trabalhando, é difícil avaliar se isso representa inovação genuína ou apenas preferência por uma arquitetura diferente.
Para desenvolvedores construindo ferramentas de IA pessoal, isso importa porque questiona suposições fundamentais sobre recuperação de informação. Se Karpathy estiver certo, podemos estar super-engenheirando soluções que poderiam funcionar melhor com designs mais simples, centrados em LLM. Mas sem detalhes de implementação ou dados de performance, é prematuro abandonar arquiteturas RAG comprovadas. O teste real será ver sistemas funcionando que demonstrem recall e precisão superiores comparados a abordagens tradicionais.
