Investigador codifica programas directamente en pesos de transformer, sin entrenamiento requerido

Un investigador ha demostrado cómo compilar programas simples directamente en pesos de transformer sin ningún entrenamiento, convirtiendo la arquitectura en un motor de ejecución determinística. El enfoque trata el flujo residual como memoria de trabajo y cada capa como un paso de máquina, con cabezas de atención realizando búsquedas y redes feed-forward ejecutando cálculos locales. En un ejemplo, el transformer codificado ejecuta una operación de búsqueda (y=lookup[x]=5) seguida de suma (z=y+1=6), con resultados intermedios almacenados como registros en una pequeña computadora.

Esto representa un cambio fundamental del paradigma estándar donde los transformers aprenden circuitos útiles mediante optimización en datos. En lugar de esperar que emerjan los patrones correctos durante el entrenamiento, este método construye analíticamente los pesos exactos necesarios para ejecutar un grafo de computación conocido. El trabajo ofrece una alternativa intrigante a la arquitectura dominante "LLM más herramientas externas" al potencialmente incorporar computación determinística directamente dentro de los modelos en lugar de requerir que salgan de su bucle de ejecución.

El contexto más amplio revela una creciente insatisfacción con las limitaciones de los transformers. Investigación de Stanford muestra 400% de crecimiento en inversión de arquitecturas no-transformer en dos años, con 60% de los laboratorios de IA líderes ahora dedicando equipos a enfoques post-transformer. Mientras tanto, otros investigadores como Will Whitney están explorando paradigmas de interacción radicalmente diferentes, proponiendo que la IA debería funcionar más como aplicaciones de computadora con interfaces gráficas en lugar de agentes conversacionales. Este enfoque codificado difiere del trabajo reciente de Percepta, que compila un intérprete general en pesos mientras suministra programas específicos a través de prompts.

Para desarrolladores, esta técnica permanece altamente especializada—útil para casos donde tienes un algoritmo conocido y quieres ejecución garantizada en lugar de aproximación aprendida. Pero sugiere arquitecturas híbridas donde los modelos podrían cambiar entre modos de razonamiento flexible y computación precisa, potencialmente reduciendo la dependencia de llamadas API externas para operaciones matemáticas.

Investigador codifica programas directamente en pesos de transformer, sin entrenamiento requerido

Más noticias