O PyTorch publicou o ExecuTorch MLX Delegate em 18 de maio — um novo backend ExecuTorch que compila e roda modelos PyTorch em GPUs Apple Silicon via o framework MLX da Apple. Throughput reportado 3-6× maior em cargas de AI generativa comparado a delegates ExecuTorch existentes em macOS. A toolchain é padrão: exporte com `torch.export`, baixe com `to_edge_transform_and_lower` usando o `MLXPartitioner`, rode o arquivo `.pte` resultante com o runtime ExecuTorch. Cobertura de modelos suportados: Llama 3.2 1B, Qwen 3 (0.6B, 1.7B, 4B), Phi-4 mini (3.8B), Gemma 3 (1B, 4B), Qwen 3.5 35B-A3B Mixture-of-Experts, mais modelos de fala Whisper, NVIDIA Parakeet TDT e Mistral Voxtral com streaming offline e em tempo real. O delegate é experimental e sob desenvolvimento ativo. github.com/pytorch/executorch.

A significância arquitetural é a ponte entre a pilha de exportação do PyTorch e o runtime ML nativo da Apple. Antes disto, rodar modelos PyTorch em Mac significava: o backend MPS do PyTorch (Metal, decente mas não o melhor), conversão para CoreML (nativo da Apple mas requer o pipeline de conversão), llama.cpp ou Ollama (runtime separado, não no ecossistema PyTorch), ou MLX diretamente (o framework da Apple mas requer reescrever o modelo). O MLX Delegate deixa você ficar em terra PyTorch — o mesmo `torch.export`, a mesma quantização TorchAO, o mesmo runtime ExecuTorch — e obter performance GPU nativa da Apple através dos kernels Metal do MLX. As 90 ATen ops que o delegate suporta atualmente é a restrição de portão: qualquer coisa que se decompõe para essas ops roda; ops customs ou decomposições não suportadas caem em outros caminhos ou falham.

Posicione isto na pilha de infraestrutura AI on-device. Os Foundation Models da Apple e o CoreML cobrem inferência nativa Apple; llama.cpp e Ollama dominam a execução de LLM quantizada em hardware de consumo; MLX é o framework array da Apple. O MLX Delegate torna o PyTorch um cidadão de primeira classe em Mac para AI generativa, com a mesma toolchain que usuários Linux/server têm. O número 3-6× é contra delegates ExecuTorch macOS existentes especificamente — não contra MPS, não contra CoreML, não contra llama.cpp. A comparação honesta seria MLX-Delegate vs Ollama para o mesmo modelo no mesmo Mac; esse benchmark não está no writeup. O que é concreto: a cobertura MoE (Qwen 3.5 35B-A3B) é rara para runtimes on-device, e o suporte a streaming de fala em tempo real (Voxtral) não é trivial de engenheirar.

Segunda-feira: se você envia modelos PyTorch que precisam rodar em Mac no contexto consumer ou developer-machine, o MLX Delegate é o caminho de exportação para tentar — comece com uma das famílias de modelos suportadas (Llama, Qwen, Phi, Gemma) e faça benchmark contra seu caminho MPS ou CoreML atual. Se você mantém ops customs que se decompõem em primitivas ATen, verifique se sua decomposição cabe no set de suporte de 90 ops; se não, você terá offload parcial no melhor caso. A tag experimental importa: APIs e features suportadas vão mudar, então não asse o MLX Delegate num caminho load-bearing de produção ainda. A pergunta de longo prazo é se MLX vira o backend GPU padrão para PyTorch em Mac — isso depende da trajetória de estabilidade do delegate e se a Apple contribui mais profundamente ao repo PyTorch upstream. Fique de olho no GitHub do ExecuTorch para promoção de experimental para estável nos próximos 2-3 releases ExecuTorch.