Zubnet AIAprenderWiki › Atención Cruzada
Fundamentos

Atención Cruzada

También conocido como: Atención Encoder-Decoder
Un mecanismo de atención donde las queries provienen de una secuencia y las keys/values provienen de una secuencia diferente. En modelos encoder-decoder, las queries del decoder atienden a las keys y values del encoder, permitiendo que el decoder "mire" la entrada mientras genera la salida. La atención cruzada también es cómo el texto condiciona la generación de imágenes en modelos de difusión — el proceso de generación de imágenes atiende al prompt de texto.

Por qué importa

La atención cruzada es el puente entre diferentes modalidades y diferentes partes de una arquitectura. Es cómo los modelos de traducción conectan idiomas de origen y destino, cómo los generadores de imágenes siguen prompts de texto, cómo los modelos multimodales relacionan imágenes con texto, y cómo los sistemas de Retrieval-Augmented incorporan documentos recuperados. Cada vez que dos entradas diferentes necesitan interactuar, la atención cruzada suele estar involucrada.

En profundidad

En la autoatención, Q, K y V provienen todos de la misma secuencia — cada token atiende a otros tokens en la misma entrada. En la atención cruzada, Q proviene de una fuente (por ejemplo, el decoder) y K, V provienen de otra (por ejemplo, el encoder). El token del decoder pregunta "¿qué en la entrada es relevante para lo que estoy generando ahora?" y el mecanismo de atención proporciona un resumen ponderado de la entrada.

En Modelos de Difusión

Los modelos de texto a imagen usan atención cruzada para condicionar la generación de imágenes sobre el texto. El prompt de texto se codifica en embeddings (vía CLIP o T5), y en cada paso de denoising, las características de la imagen atienden a los embeddings de texto a través de capas de atención cruzada. Así es como el modelo sabe generar un "gato en una tabla de surf" — cada ubicación espacial en la imagen atiende a las palabras relevantes. Manipular estos mapas de atención cruzada es cómo funcionan técnicas como la ponderación de prompts y la edición de atención.

Patrones de Atención

La autoatención y la atención cruzada tienen perfiles computacionales diferentes. La autoatención es cuadrática en la longitud de la secuencia (cada token atiende a todos los demás tokens). La atención cruzada es lineal en la longitud del decoder por la longitud del encoder (cada token del decoder atiende a todos los tokens del encoder). En la práctica, la salida del encoder suele ser mucho más corta que la secuencia del decoder, haciendo que la atención cruzada sea más barata que la autoatención del decoder.

Conceptos relacionados

← Todos los términos
← Atención Atención Dispersa →
ESC
Empieza a escribir para buscar...