PyTorch ने 18 मई को ExecuTorch MLX Delegate publish किया — एक नया ExecuTorch backend जो Apple के MLX framework के through PyTorch models को Apple Silicon GPUs पर compile और run करता है। Reported throughput मौजूदा macOS पर ExecuTorch delegates की तुलना में generative AI workloads पर 3-6× ज़्यादा। Toolchain standard है: `torch.export` से export करो, `MLXPartitioner` use करते हुए `to_edge_transform_and_lower` से lower करो, resulting `.pte` file को ExecuTorch runtime के साथ run करो। Supported model coverage: Llama 3.2 1B, Qwen 3 (0.6B, 1.7B, 4B), Phi-4 mini (3.8B), Gemma 3 (1B, 4B), Qwen 3.5 35B-A3B Mixture-of-Experts, plus speech models Whisper, NVIDIA Parakeet TDT, और Mistral Voxtral offline और real-time streaming के साथ। Delegate experimental है और active development के तहत। github.com/pytorch/executorch।

Architectural significance PyTorch के export stack और Apple के native ML runtime के बीच का bridge है। इससे पहले, Mac पर PyTorch models run करने का मतलब था: PyTorch का MPS backend (Metal, decent लेकिन best-in-class नहीं), CoreML में conversion (Apple-native लेकिन conversion pipeline require करता है), llama.cpp या Ollama (separate runtime, PyTorch ecosystem में नहीं), या MLX directly (Apple का framework लेकिन model rewrite करना पड़ता है)। MLX Delegate आपको PyTorch land में रहने देता है — वही `torch.export`, वही TorchAO quantization, वही ExecuTorch runtime — और MLX के Metal kernels के through Apple-native GPU performance देता है। Delegate जो 90 ATen ops currently support करता है वो gating constraint है: जो भी उन ops में decompose होता है वो run करता है; custom ops या unsupported decompositions दूसरे paths पर fall back करती हैं या fail होती हैं।

इसे on-device AI infrastructure stack में position करो। Apple के Foundation Models और CoreML Apple-native inference cover करते हैं; llama.cpp और Ollama consumer hardware पर quantized-LLM execution dominate करते हैं; MLX Apple का array framework है। MLX Delegate PyTorch को Mac पर generative AI के लिए first-class citizen बनाता है, उसी toolchain के साथ जो Linux/server users के पास है। 3-6× number specifically मौजूदा ExecuTorch macOS delegates के against है — MPS के against नहीं, CoreML के against नहीं, llama.cpp के against नहीं। Honest comparison वही Mac पर वही model के लिए MLX-Delegate vs Ollama होती; वो benchmark writeup में नहीं है। जो concrete है: MoE coverage (Qwen 3.5 35B-A3B) on-device runtimes के लिए rare है, और real-time speech streaming support (Voxtral) engineer करना non-trivial है।

सोमवार: अगर आप PyTorch models ship करते हो जिन्हें Mac पर consumer या developer-machine context में run करना है, MLX Delegate try करने के लिए export path है — supported model families में से किसी एक (Llama, Qwen, Phi, Gemma) से शुरू करो और अपने current MPS या CoreML path के against benchmark करो। अगर आप custom ops maintain करते हो जो ATen primitives में decompose होती हैं, check करो कि आपकी decomposition 90-op support set में fit होती है या नहीं; अगर नहीं, आपको best case में partial offload मिलेगा। Experimental tag matter करता है: APIs और supported features बदलेंगे, तो MLX Delegate को अभी load-bearing production path में bake मत करो। Longer-term question यह है कि क्या MLX PyTorch के लिए Mac पर default GPU backend बनेगा — यह delegate की stability trajectory पर depend करता है और इस पर कि Apple PyTorch upstream repo में deeper contribute करता है या नहीं। ExecuTorch GitHub को watch करो experimental से stable तक की promotion के लिए अगले 2-3 ExecuTorch releases में।