Um pesquisador demonstrou como compilar programas simples diretamente nos pesos de transformer sem nenhum treinamento, transformando a arquitetura em um motor de execução determinístico. A abordagem trata o fluxo residual como memória de trabalho e cada camada como um passo de máquina, com cabeças de atenção realizando buscas e redes feed-forward executando computações locais. Em um exemplo, o transformer codificado executa uma operação de busca (y=lookup[x]=5) seguida de adição (z=y+1=6), com resultados intermediários armazenados como registradores em um pequeno computador.

Isto representa uma mudança fundamental do paradigma padrão onde transformers aprendem circuitos úteis através de otimização em dados. Em vez de esperar que os padrões corretos emerjam durante o treinamento, este método constrói analiticamente os pesos exatos necessários para executar um grafo de computação conhecido. O trabalho oferece uma alternativa intrigante à arquitetura dominante "LLM mais ferramentas externas" ao potencialmente incorporar computação determinística diretamente dentro dos modelos em vez de exigir que saiam de seu loop de execução.

O contexto mais amplo revela crescente insatisfação com as limitações dos transformers. Pesquisa de Stanford mostra 400% de crescimento em investimento de arquiteturas não-transformer ao longo de dois anos, com 60% dos laboratórios de IA líderes agora dedicando equipes a abordagens pós-transformer. Enquanto isso, outros pesquisadores como Will Whitney estão explorando paradigmas de interação radicalmente diferentes, propondo que IA deveria funcionar mais como aplicações de computador com interfaces gráficas em vez de agentes conversacionais. Esta abordagem codificada difere do trabalho recente da Percepta, que compila um interpretador geral nos pesos enquanto fornece programas específicos através de prompts.

Para desenvolvedores, esta técnica permanece altamente especializada—útil para casos onde você tem um algoritmo conhecido e quer execução garantida em vez de aproximação aprendida. Mas sugere arquiteturas híbridas onde modelos poderiam alternar entre modos de raciocínio flexível e computação precisa, potencialmente reduzindo a dependência de chamadas API externas para operações matemáticas.