Tensor: Definición y significado — Wiki de IA

Un array multidimensional de números — la estructura de datos fundamental en deep learning. Un escalar es un tensor 0D (un solo número). Un vector es un tensor 1D. Una matriz es un tensor 2D. Una imagen es un tensor 3D (alto × ancho × canales). Un batch de imágenes es un tensor 4D. Pesos del modelo, activaciones, gradientes — todo en una red neuronal es un tensor.

Por qué importa

Los tensores son el lenguaje del deep learning. PyTorch, TensorFlow y JAX son fundamentalmente librerías de cómputo de tensores. Entender las formas y operaciones de tensores es esencial para leer código de modelos, depurar discrepancias de formas (el error más común en código de ML) y entender qué pasa dentro de las redes neuronales. Si puedes seguir las formas de los tensores, puedes seguir la arquitectura.

En profundidad

Formas comunes de tensores en NLP: los tokens de entrada son enteros (batch_size, sequence_length). Los embeddings son floats (batch_size, seq_len, model_dim). Los pesos de attention son (batch_size, num_heads, seq_len, seq_len). Los logits de salida son (batch_size, seq_len, vocab_size). Entender estas formas te dice exactamente qué está pasando: el tensor de attention es N×N porque cada token atiende a cada otro token.

Operaciones

Operaciones clave de tensores: matmul (multiplicación de matrices — el cómputo central en redes neuronales), reshape (cambiar dimensiones sin cambiar datos), transpose (intercambiar dimensiones), concat (unir tensores a lo largo de una dimensión), slice (extraer subtensores) y broadcast (hacer tensores con formas diferentes compatibles para operaciones elemento a elemento). El deep learning es realmente solo una secuencia de estas operaciones aplicadas a tensores.

Aceleración por GPU

Los tensores se computan en GPUs porque las operaciones de tensores son masivamente paralelas: multiplicar dos matrices involucra millones de operaciones independientes de multiplicar y sumar que pueden ejecutarse simultáneamente. Por eso importa la VRAM de la GPU — todos los tensores involucrados en el cómputo deben residir en la memoria de la GPU. Cuando te quedas sin VRAM, es porque la suma de todos los tamaños de tensores (pesos del modelo + activaciones + gradientes + estados del optimizador) excede la capacidad. Técnicas como gradient checkpointing, precisión mixta y model sharding son todas sobre gestionar la memoria de tensores.