NVIDIA本週開源了AITune,這是一個自動對TensorRT、Torch-TensorRT、TorchAO和Torch Inductor進行基準測試的工具包,可以針對你的PyTorch模型選擇最快的一個。透過PyPI提供Apache 2.0授權,它提供預先調優(你提供模型和資料集)和即時調優(設定環境變數並執行現有腳本不變)兩種模式。該工具驗證優化後的模型產生正確的輸出——解決了研究模型與生產就緒推論之間歷史上令人痛苦的差距。

這解決了一個真正的工程難題。正如我在三月份寫NVIDIA的Model Optimizer時所說,優化後端的激增為試圖交付快速推論的團隊造成了選擇癱瘓。每個後端——TensorRT的GPU核心、Torch-TensorRT的PyTorch整合、TorchAO的加速框架——都有不同的甜蜜點。在它們之間進行手動基準測試會消耗大多數團隊無法承受的工程週期。AITune的自動選擇消除了這種猜測。

值得注意的是,這個時機恰好與PyTorch最近在Blackwell GPU上進行MXFP8和NVFP4量化工作同步。生態系統正在分化為更專業化的優化路徑,使自動選擇更有價值但也更複雜。AITune處理後端選擇,但在部署編排方面止步——你仍需要手動將優化後的模型連接到你的服務基礎架構中。

對於已經在與推論優化奮鬥的團隊,AITune在複雜pipeline中消除了一個決策點。即時模式對實驗特別有吸引力——加入一個環境變數,看看能獲得什麼加速。但這是優化工具,不是部署解決方案。你仍然負責生產中的模型服務、擴展和監控。