mKernel: UCCL NVLink, RDMA और compute को एक persistent CUDA kernel में फ्यूज़ करता है

UC Berkeley के UCCL प्रोजेक्ट ने mKernel जारी किया, एक MIT-लाइसेंस लाइब्रेरी जो intra-node NVLink communication, inter-node RDMA, और dense compute को एकल persistent CUDA kernels में फ्यूज़ करती है — उन्हें अनुक्रमिक stages के बजाय एक साथ चलाती है। प्रेरक संख्या वह है जो frontier-training टीमें जानती हैं: communication forward pass का 43.6% और end-to-end प्रशिक्षण समय का 32% खपत करता है, MoE मॉडलों के लिए कुल निष्पादन समय का 47% तक बढ़ता है जहाँ expert-parallel all-to-all हावी है। यदि आपके प्रशिक्षण समय का लगभग आधा network compute की प्रतीक्षा या compute network की प्रतीक्षा है, उनके बीच kernel सीमा वह है जहाँ बर्बादी रहती है, और mKernel का दांव उस सीमा को हटाना है।

दो तंत्र लाभ चलाते हैं। पहला, CPU GPU के साथ scale नहीं करते — प्रत्येक अलग kernel launch और synchronization check microseconds खर्च करता है जो H100/H200-वर्ग हार्डवेयर पर मापने योग्य pipeline विलंब बन गए हैं, और एक persistent fused kernel उस लागत को per-stage के बजाय एक बार चुकाता है। दूसरा, fusion tile/chunk granularity पर fine-grained intra-kernel overlap सक्षम करता है: सभी communication समाप्त करने फिर compute शुरू करने (या इसके विपरीत) के बजाय coarse kernel सीमाओं पर, mKernel उन्हें एक kernel के अंदर interleave करता है तो RDMA पर पहुँचा एक tile GEMM को feed करता है जबकि अगला tile अभी भी उड़ान में है। लाइब्रेरी पाँच fused kernels भेजती है जो महत्वपूर्ण पैटर्न को कवर करते हैं: AllGather+GEMM, GEMM+AllReduce, MoE Dispatch+GEMM, Ring Attention, और GEMM+ReduceScatter — token routing, expert parallelism, और sequence-parallel attention। 2-node H200 क्लस्टर पर AWS EFA या ConnectX-7 InfiniBand के माध्यम से परीक्षण किया गया।

इकोसिस्टम रीडिंग: communication-compute fusion multi-node प्रशिक्षण के लिए अगली दक्षता सीमा है अब जब single-GPU kernel अनुकूलन परिपक्व है। NCCL और NVSHMEM communication को compute से एक अलग primitive के रूप में मानते हैं; persistent-kernel fusion दृष्टिकोण वह है जो kernel-boundary overlap gap को बंद करता है जो वे लाइब्रेरी संरचनात्मक रूप से नहीं कर सकतीं। विशेष रूप से MoE के लिए — जहाँ communication 47% पर एकल सबसे बड़ा time sink है — यह अनुकूलन के लिए सबसे उच्च-लीवरेज स्थान है, इसीलिए MoE Dispatch+GEMM पाँच भेजे गए kernels में से एक है। संरचनात्मक संकेत यह है कि यह academia से MIT लाइसेंस के तहत आया, vendor से नहीं — NVIDIA के DeepEP और NVSHMEM निकटतम तुलना हैं, और एक खुला MIT विकल्प बदलता है कि कौन vendor lock-in के बिना comm-compute fusion पर निर्माण कर सकता है।

ईमानदार चेतावनियाँ: writeup NCCL या DeepEP के against कोई head-to-head speedup संख्या नहीं देता, परीक्षण केवल 2-node H200 है (multi-node-at-scale व्यवहार खुला प्रश्न है), और persistent fused kernels कुख्यात रूप से debug और tune करने में कठिन हैं। यदि आप सोमवार सुबह multi-node MoE या बड़े मॉडल प्रशिक्षित करते हैं: mKernel आपकी अपनी fabric पर benchmark के लायक है, विशेष रूप से यदि communication आपका मापा गया bottleneck है — लेकिन पहले अपने comm अंश को profile करें, अपने node count पर पुन: उत्पन्न करें, और प्रकाशित NCCL तुलनाओं की अनुपस्थिति को training run दांव लगाने से पहले सत्यापित करने की चीज़ के रूप में मानें।

mKernel: UCCL NVLink, RDMA और compute को एक persistent CUDA kernel में फ्यूज़ करता है

और समाचार