Si tu maintiens des Dockerfiles ou du CI qui target des box Grace, Grace Hopper ou Grace Blackwell, tu peux drop le workaround `--index-url https://download.pytorch.org/whl/cu128` à présent : PyTorch 2.11.0 (avril 2026) publie les wheels GPU CUDA-enabled sur l'index PyPI default pour aarch64 Linux. Avant 2.11.0, `pip install torch` sur aarch64 pullait silencieusement des wheels CPU-only ; les transitive deps pouvaient breaker la détection GPU de façon subtile. Le fix est du packaging, pas du kernel — mais pour ceux qui roulent vLLM sur des box d'inférence ARM-host, ça collapse une source chronique de debug "pourquoi CUDA est pas available."
Le mécanisme est le standard NVIDIA/Astral Wheel Variants, qui permet à PyPI de distinguer les builds architecture/accelerator-specific sous un seul nom de package. L'implémentation PyTorch utilise du linking dynamique sur NCCL et cuBLAS plutôt que du static bundling — c'est ce qui garde les wheels assez petits pour vivre sur PyPI en premier lieu. Plateformes host nommées supportées : GB200, GB300, GH200 (systèmes Grace Blackwell et Grace Hopper). vLLM portait des workarounds interim (`use_existing_torch.py` strippant torch des fichiers d'install ; `[tool.uv] no-build-isolation-package = ["torch"]` dans pyproject.toml). Les deux restent utiles pour les builds torch custom/nightly mais stoppent d'être mandatoires pour les installs stock.
Implications du stack plus large. Grace Hopper / Grace Blackwell — et maintenant Vera, le CPU 88-cœurs agent-optimisé de NVIDIA pairé avec les GPUs Rubin — sont toutes des topologies ARM-host plus GPU NVIDIA. Ce sont les systèmes derrière le design de référence Vera Rubin NVL72 et derrière les instances GH200/GB200 offertes par Oracle Cloud, CoreWeave, Lambda, Nebius, et des opérateurs similaires. Avant 2.11, le dev AI ARM-host voulait dire un branch dans chaque script d'install qui savait swapper l'index PyPI. Ce branch est maintenant optionnel. Au-delà de PyTorch spécifiquement, Wheel Variants est le standard qui permet à l'écosystème GPU Python plus large de modéliser "architecture × accelerator" comme dimension de packaging first-class plutôt que des URLs d'index ad-hoc. L'adoption par JAX, CuPy, Triton, et autres c'est la story plus long-running à tracker.
Lundi matin : bump `torch>=2.11.0` dans tes builds Grace/GH200/GB200 et enlève l'override index-url. Si tu dépends de torch nightlies ou de builds custom, garde les workarounds vLLM — ils t'achètent encore quelque chose. L'action long-terme : watch l'adoption Wheel Variants à travers le stack Python GPU. Quand JAX/CuPy/Triton shippent sur le même standard, le branching x86-vs-aarch64 dans ta logique d'install disparaît au complet. Pour les teams qui planifient des déploiements sur hardware classe Vera Rubin NVL72 plus tard cette année, c'est la première piece de la plumbing developer-experience qui land en stable. La story perf kernel-level pour l'inférence ARM-host est séparée et encore en maturation — mais le problème install-it-and-go est maintenant résolu.
