PyTorch 2.11 traz CUDA aarch64 ao PyPI default: vLLM-em-Grace já é pip direto, Zubnet AI Notícias

Se você mantém Dockerfiles ou CI que miram boxes Grace, Grace Hopper ou Grace Blackwell, pode descartar o workaround `--index-url https://download.pytorch.org/whl/cu128` agora: PyTorch 2.11.0 (abril 2026) publica wheels GPU CUDA-enabled ao índice PyPI default para aarch64 Linux. Antes de 2.11.0, `pip install torch` em aarch64 puxava silenciosamente wheels CPU-only; dependências transitivas podiam quebrar a detecção GPU de formas sutis. O fix é packaging, não kernels — mas para qualquer um rodando vLLM em boxes de inferência ARM-host, colapsa uma fonte crônica de debug "por que CUDA não está disponível."

O mecanismo é o padrão NVIDIA/Astral Wheel Variants, que permite ao PyPI distinguir builds específicos de arquitetura/acelerador sob um único nome de pacote. A implementação do PyTorch usa linking dinâmico para NCCL e cuBLAS em vez de bundling estático — isso é o que mantém os wheels pequenos o suficiente para viver no PyPI em primeiro lugar. Plataformas host nomeadas suportadas: GB200, GB300, GH200 (sistemas Grace Blackwell e Grace Hopper). O vLLM carregava workarounds interinos (`use_existing_torch.py` que tira torch dos arquivos de install; `[tool.uv] no-build-isolation-package = ["torch"]` no pyproject.toml). Ambos continuam úteis para builds torch custom/nightly mas deixam de ser mandatórios para installs stock.

Implicações da pilha mais ampla. Grace Hopper / Grace Blackwell — e agora Vera, o CPU 88-núcleos otimizado-para-agentes da NVIDIA emparelhado com GPUs Rubin — são todas topologias ARM-host mais GPU NVIDIA. São os sistemas atrás do design de referência Vera Rubin NVL72 e atrás das instâncias GH200/GB200 oferecidas por Oracle Cloud, CoreWeave, Lambda, Nebius, e operadores similares. Até 2.11, dev AI ARM-host significava um branch em cada script de install que sabia trocar o índice PyPI. Esse branch agora é opcional. Além do PyTorch especificamente, Wheel Variants é o padrão que permite ao ecossistema Python GPU mais amplo modelar "arquitetura × acelerador" como dimensão de packaging de primeira classe em vez de URLs de índice ad-hoc. A adoção por JAX, CuPy, Triton, e outros é a história de mais longo prazo a rastrear.

Segunda-feira: bump `torch>=2.11.0` nos seus builds Grace/GH200/GB200 e remova o override index-url. Se você depende de torch nightlies ou builds custom, mantenha os workarounds vLLM — eles ainda compram algo. A ação de longo prazo: observe a adoção de Wheel Variants através da pilha Python GPU. Quando JAX/CuPy/Triton enviarem sobre o mesmo padrão, o branching x86-vs-aarch64 na sua lógica de install desaparece por completo. Para times planejando deploys em hardware classe Vera Rubin NVL72 mais tarde este ano, esta é a primeira peça do encanamento developer-experience pousando em estável. A história perf nível-kernel para inferência ARM-host é separada e ainda amadurecendo — mas o problema install-it-and-go agora está resolvido.

PyTorch 2.11 traz CUDA aarch64 ao PyPI default: vLLM-em-Grace já é pip direto

Mais notícias