Transformer: Definición y significado — Wiki de IA

La arquitectura de red neuronal detras de practicamente todos los LLMs modernos y muchos modelos de imagen/audio. Introducida por Google en el paper de 2017 "Attention Is All You Need", los Transformers usan self-attention para procesar todas las partes de una entrada simultaneamente en lugar de secuencialmente, habilitando un paralelismo masivo durante el entrenamiento.

Por qué importa

Los Transformers son la arquitectura que hizo posible el boom actual de IA. GPT, Claude, Gemini, Llama, Mistral — todos son Transformers bajo el capo. Entender esta arquitectura te ayuda a comprender por que los modelos tienen las capacidades y limitaciones que tienen.

En profundidad

Un bloque Transformer tiene dos componentes principales apilados: una capa de multi-head self-attention y una red feedforward (FFN), cada una envuelta en normalizacion de capa y una conexion residual. La capa de atencion maneja el enrutamiento de informacion — decide cuales tokens deberian influenciar a cuales otros tokens. La FFN maneja el procesamiento de informacion — transforma la representacion de cada token independientemente a traves de una capa oculta mas amplia (tipicamente 4 veces la dimension del modelo) con una no linealidad. La mayoria de los parametros del modelo residen en las capas FFN, y la investigacion sugiere que aqui es donde se almacena el conocimiento factual, mientras que las capas de atencion aprenden patrones relacionales y sintacticos. Apila de 32 a 128 de estos bloques, y obtienes un LLM moderno.

Tres variantes

El paper original de 2017 "Attention Is All You Need" describio una arquitectura encoder-decoder para traduccion automatica. El encoder procesa la secuencia de entrada y produce representaciones contextualizadas; el decoder genera la secuencia de salida un token a la vez, atendiendo tanto a sus propias salidas previas como a la salida del encoder mediante cross-attention. Pero el campo rapidamente divergio en tres variantes. Los modelos solo encoder (como BERT) procesan la entrada completa bidireccionalmente y son excelentes para clasificacion y recuperacion. Los modelos solo decoder (GPT, Claude, Llama, Mistral) usan enmascaramiento causal para que cada token solo pueda atender a los tokens anteriores — esto es lo que quieres para generacion de texto. Los modelos encoder-decoder (T5, BART) mantuvieron la arquitectura original y funcionan bien para traduccion y resumen. La variante solo decoder gano la carrera de escalamiento porque es mas simple de entrenar y naturalmente soporta generacion autoregresiva.

Las leyes de escalamiento

Las leyes de escalamiento son lo que convirtio al Transformer de una arquitectura en una industria. El paper de Chinchilla (Hoffmann et al., 2022) mostro que el rendimiento de los modelos escala de manera predecible como una ley de potencias del computo, los datos y los parametros. Esto significa que puedes pronosticar que tan bueno sera un modelo antes de entrenarlo, lo cual convirtio el desarrollo de LLMs en un problema de ingenieria con retornos de inversion relativamente predecibles. Esa predictibilidad es lo que justifico los miles de millones de dolares en clusters de GPUs. Tambien mostro que la mayoria de los modelos de la epoca estaban subentrenados — dado un presupuesto fijo de computo, obtienes mejores resultados de un modelo mas pequeno entrenado con mas datos que de un modelo mas grande entrenado con menos. Este hallazgo reformo toda la industria: Llama, Mistral y Gemma todos entrenan con muchos mas tokens en relacion a su cantidad de parametros que los modelos anteriores.

Los Transformers modernos han divergido significativamente del paper original. Pre-norm (aplicar normalizacion de capa antes de attention/FFN en lugar de despues) ahora es estandar porque estabiliza el entrenamiento a escala. RMSNorm reemplazo a LayerNorm por eficiencia. Los Rotary Position Embeddings (RoPE) reemplazaron las codificaciones de posicion aprendidas o sinusoidales porque generalizan mejor a secuencias mas largas de las que el modelo fue entrenado. La activacion SwiGLU reemplazo a ReLU en la FFN para mejor rendimiento. Grouped-Query Attention (GQA) comparte cabezas key-value entre cabezas de query para reducir el KV cache. Flash Attention reestructuro el computo de atencion para ser eficiente en memoria sin cambiar las matematicas. Ninguno de estos cambia la arquitectura fundamental, pero juntos representan anos de iteracion en ingenieria que hacen practico entrenar y servir modelos grandes.

El muro de escalamiento

La mayor limitacion practica de los Transformers es el costo cuadratico de la atencion con respecto a la longitud de la secuencia. Cada token debe atender a todos los tokens anteriores, asi que procesar un contexto de 128K tokens requiere ordenes de magnitud mas computo que un contexto de 4K. Esto impulsa el costo de las llamadas de API con contexto largo, y es la razon por la que alternativas como SSMs y arquitecturas hibridas se investigan activamente. El KV cache — los pares key-value almacenados de todas los tokens anteriores que deben mantenerse en memoria durante la generacion — es el otro cuello de botella principal. Para un modelo grande generando secuencias largas, el KV cache puede consumir mas memoria de GPU que los propios pesos del modelo. Tecnicas como paged attention (vLLM), KV caches cuantizados y decodificacion especulativa son todas respuestas de ingenieria a lo que es fundamentalmente una restriccion arquitectonica. El Transformer no va a desaparecer pronto, pero la proxima generacion de arquitecturas sera casi con certeza hibrida, manteniendo sus fortalezas mientras aborda estas limitaciones de escalamiento.

Transformer

Por qué importa

En profundidad

Tres variantes

Las leyes de escalamiento

El muro de escalamiento

Conceptos relacionados