Zubnet AIApprendreWiki › Tensor
Fondamentaux

Tensor

Multidimensional Array
Un tableau multidimensionnel de nombres — la structure de données fondamentale en deep learning. Un scalaire est un tensor 0D (un seul nombre). Un vecteur est un tensor 1D. Une matrice est un tensor 2D. Une image est un tensor 3D (hauteur × largeur × canaux). Un batch d'images est un tensor 4D. Les poids du modèle, les activations, les gradients — tout dans un réseau de neurones est un tensor.

Pourquoi c'est important

Les tensors sont le langage du deep learning. PyTorch, TensorFlow et JAX sont fondamentalement des librairies de calcul tensoriel. Comprendre les shapes et les opérations de tensors est essentiel pour lire du code de modèle, déboguer les mismatches de shape (l'erreur la plus commune en code ML), et comprendre ce qui se passe à l'intérieur des réseaux de neurones. Si tu peux suivre les shapes de tensors, tu peux suivre l'architecture.

Deep Dive

Common tensor shapes in NLP: input tokens are (batch_size, sequence_length) integers. Embeddings are (batch_size, seq_len, model_dim) floats. Attention weights are (batch_size, num_heads, seq_len, seq_len). The output logits are (batch_size, seq_len, vocab_size). Understanding these shapes tells you exactly what's happening: the attention tensor is N×N because each token attends to every other token.

Operations

Key tensor operations: matmul (matrix multiplication — the core computation in neural networks), reshape (changing dimensions without changing data), transpose (swapping dimensions), concat (joining tensors along a dimension), slice (extracting subtensors), and broadcast (making differently-shaped tensors compatible for element-wise operations). Deep learning is really just a sequence of these operations applied to tensors.

GPU Acceleration

Tensors are computed on GPUs because tensor operations are massively parallel: multiplying two matrices involves millions of independent multiply-add operations that can run simultaneously. This is why GPU VRAM matters — all tensors involved in computation must reside in GPU memory. When you run out of VRAM, it's because the sum of all tensor sizes (model weights + activations + gradients + optimizer states) exceeds capacity. Techniques like gradient checkpointing, mixed precision, and model sharding are all about managing tensor memory.

Concepts liés

← Tous les termes
ESC