Zubnet AIApprendreWiki › Checkpoint
Training

Checkpoint

Model Checkpoint, Snapshot
Un snapshot sauvegardé de l'état d'un modèle pendant l'entraînement — les poids, l'état de l'optimiseur, le schedule de learning rate et l'étape d'entraînement. Les checkpoints te laissent reprendre l'entraînement après des interruptions (échec hardware, préemption), évaluer des versions intermédiaires du modèle et rollback à une version antérieure si l'entraînement se dégrade. Sauvegarder des checkpoints toutes les quelques milliers d'étapes est une pratique standard.

Pourquoi c'est important

Entraîner de gros modèles prend des jours à des mois. Sans checkpoints, un échec GPU à l'étape 90 000 d'un run de 100 000 étapes veut dire recommencer. Les checkpoints sont de l'assurance : ils sauvegardent le progrès incrémentalement donc tu perds seulement le travail depuis le dernier checkpoint. Ils permettent aussi la sélection de modèle — parfois un checkpoint antérieur performe mieux sur tes métriques d'évaluation que le final.

Deep Dive

A full checkpoint for a 70B model includes: model weights (~140 GB in FP16), optimizer states (~280 GB for Adam, which stores two moving averages per parameter), learning rate scheduler state, random number generator states, and the current training step. Total: ~420 GB per checkpoint. Saving this to disk takes significant time and storage, which is why checkpointing is done periodically rather than every step.

Checkpoint Strategies

Common strategies: save every N steps (simple but uses lots of storage), save only the K most recent checkpoints (deleting older ones to save space), save based on evaluation metrics (keep the checkpoint with the best validation loss), and use async checkpointing (save in the background while training continues on the next batch). Large training runs often use all of these: frequent local checkpoints on fast NVMe storage plus periodic remote checkpoints to network storage for disaster recovery.

Checkpoint Conversion

Different frameworks use different checkpoint formats: PyTorch's state_dict, Hugging Face's safetensors, FSDP's sharded checkpoints, and DeepSpeed's ZeRO checkpoints. Converting between formats is a common task — you might train with DeepSpeed (sharded across GPUs) but need a single consolidated checkpoint for inference or uploading to Hugging Face. The safetensors format is becoming the standard for sharing because it's fast to load and memory-safe.

Concepts liés

← Tous les termes
← Chatbot Arena Classification →