Multimodal: Definición y significado — Wiki de IA

Un modelo que puede entender y/o generar múltiples tipos de datos: texto, imágenes, audio, video, código. Claude puede leer imágenes y texto; algunos modelos también pueden producir imágenes o voz. “Multimodal” contrasta con modelos “unimodales” que solo manejan un tipo.

Por qué importa

Las tareas del mundo real son multimodales. Quieres mostrarle a una IA una captura de pantalla y preguntar “¿qué está mal aquí?” o darle un diagrama y decir “implementa esto”. Los modelos multimodales hacen eso posible.

En profundidad

La IA multimodal funciona codificando diferentes tipos de datos — texto, imágenes, audio, video — en un espacio de representación compartido donde el modelo puede razonar entre ellos. El enfoque más común usa redes codificadoras separadas para cada modalidad (un codificador de visión para imágenes, un codificador de audio para habla) que transforman las entradas crudas en secuencias de embeddings, que luego se alimentan a un backbone Transformer compartido junto con tokens de texto. Así es como modelos como GPT-4o y Claude manejan imágenes: un codificador de visión (a menudo una variante de un Vision Transformer, o ViT) convierte la imagen en una cuadrícula de “tokens visuales” que el modelo de lenguaje procesa igual que tokens de texto.

Comprensión vs. generación

Hay una distinción importante entre comprensión multimodal y generación multimodal. La mayoría de los modelos de chat actuales son multimodales en el lado de la entrada — pueden leer imágenes, PDFs y a veces audio — pero su salida sigue siendo principalmente texto. La verdadera generación multimodal, donde el mismo modelo puede producir imágenes, audio y texto de forma nativa, es un problema más difícil. Gemini de Google y GPT-4o de OpenAI empujan en esta dirección, pero muchos productos “multimodales” en realidad encadenan modelos especializados separados tras bambalinas: un modelo de lenguaje decide qué imagen crear, luego pasa un prompt de texto a un modelo de difusión como DALL-E o Imagen para realmente generarla. La costura entre estos modelos importa para la calidad y la coherencia.

Qué tan rápido avanzó

La evolución aquí ha sido rápida. En 2022, lograr que una IA describiera confiablemente lo que había en una imagen era impresionante. Para 2024, los modelos podían leer notas manuscritas, interpretar gráficos complejos, entender capturas de pantalla de UI y seguir instrucciones visuales. Las implicaciones prácticas son enormes. Los desarrolladores usan modelos multimodales para construir pipelines de procesamiento de documentos que manejan PDFs escaneados, fotos de pizarras o especificaciones técnicas mixtas de texto y diagramas — todo sin pasos separados de OCR o clasificación de imágenes. En el caso de Claude, puedes pegar una captura de pantalla de un mensaje de error, una foto de un wireframe dibujado a mano o una visualización de datos compleja, y el modelo razona sobre ello en contexto junto con tus instrucciones de texto.

Donde la visión se queda corta

Un matiz que confunde a la gente: “multimodal” no significa “igualmente bueno en todas las modalidades”. La mayoría de los LLMs multimodales siguen siendo fundamentalmente modelos de lenguaje con visión añadida. Su razonamiento de texto es típicamente mucho más fuerte que su comprensión visual. Pueden contar mal objetos en una imagen, tener dificultades con relaciones espaciales o fallar al leer texto pequeño en una captura de pantalla — tareas que se sienten trivialmente fáciles para un humano. La resolución del codificador de visión también importa: si tu imagen se reduce de tamaño antes de que el modelo la vea, los detalles finos se pierden sin importar qué tan inteligente sea el modelo de lenguaje. Al construir sistemas de producción, vale la pena entender qué resolución y presupuesto de tokens tu modelo asigna a las imágenes, porque eso afecta directamente qué detalles visuales puede y no puede percibir.

La frontera any-to-any

La frontera se mueve hacia lo que los investigadores llaman modelos “any-to-any” — sistemas que pueden tomar cualquier combinación de modalidades como entrada y producir cualquier combinación como salida. Piensa en: subir un video, obtener un resumen de texto con fotogramas relevantes extraídos, más una narración en audio. O describir una escena en texto y obtener un video con música sincronizada. Aún no estamos completamente ahí, pero la trayectoria es clara. Los modelos que más importarán en los próximos años son los que disuelvan las fronteras entre ver, escuchar, leer, escribir y crear, haciendo de la modalidad de tu entrada y salida una elección en lugar de una restricción.

Multimodal