Si mantienes Dockerfiles o CI que apuntan a boxes Grace, Grace Hopper o Grace Blackwell, puedes eliminar el workaround `--index-url https://download.pytorch.org/whl/cu128` ahora: PyTorch 2.11.0 (abril 2026) publica wheels GPU CUDA-enabled al índice PyPI default para aarch64 Linux. Antes de 2.11.0, `pip install torch` en aarch64 jalaba silenciosamente wheels CPU-only; las dependencias transitivas podían romper la detección GPU de formas sutiles. El fix es packaging, no kernels — pero para cualquiera corriendo vLLM en boxes de inferencia ARM-host, colapsa una fuente crónica de debug "por qué CUDA no está disponible."
El mecanismo es el estándar NVIDIA/Astral Wheel Variants, que permite a PyPI distinguir builds específicos de arquitectura/acelerador bajo un solo nombre de paquete. La implementación de PyTorch usa linking dinámico a NCCL y cuBLAS en lugar de bundling estático — eso es lo que mantiene los wheels lo suficientemente pequeños para vivir en PyPI en primer lugar. Plataformas host nombradas soportadas: GB200, GB300, GH200 (sistemas Grace Blackwell y Grace Hopper). vLLM cargaba workarounds interinos (`use_existing_torch.py` que strippea torch de los archivos de install; `[tool.uv] no-build-isolation-package = ["torch"]` en pyproject.toml). Ambos siguen siendo útiles para builds torch custom/nightly pero dejan de ser mandatorios para installs stock.
Implicaciones de la pila más amplia. Grace Hopper / Grace Blackwell — y ahora Vera, el CPU 88-núcleos optimizado-para-agentes de NVIDIA emparejado con GPUs Rubin — son todos topologías ARM-host más GPU NVIDIA. Son los sistemas detrás del diseño de referencia Vera Rubin NVL72 y detrás de las instancias GH200/GB200 ofrecidas por Oracle Cloud, CoreWeave, Lambda, Nebius, y operadores similares. Hasta 2.11, dev AI ARM-host significaba un branch en cada script de install que sabía intercambiar el índice PyPI. Ese branch ahora es opcional. Más allá de PyTorch específicamente, Wheel Variants es el estándar que permite al ecosistema Python GPU más amplio modelar "arquitectura × acelerador" como dimensión de packaging de primera clase en lugar de URLs de índice ad-hoc. La adopción por JAX, CuPy, Triton, y otros es la historia de más largo plazo a rastrear.
Lunes: bump `torch>=2.11.0` en tus builds Grace/GH200/GB200 y remueve el override index-url. Si dependes de torch nightlies o builds custom, mantén los workarounds vLLM — todavía te compran algo. La acción a largo plazo: vigila la adopción de Wheel Variants a través de la pila Python GPU. Cuando JAX/CuPy/Triton envíen sobre el mismo estándar, el branching x86-vs-aarch64 en tu lógica de install desaparece por completo. Para equipos planeando despliegues en hardware clase Vera Rubin NVL72 más tarde este año, esta es la primera pieza de la plomería developer-experience aterrizando en estable. La historia perf nivel-kernel para inferencia ARM-host es separada y todavía madurando — pero el problema install-it-and-go ahora está resuelto.
