NVIDIA本周开源了AITune,这是一个自动对TensorRT、Torch-TensorRT、TorchAO和Torch Inductor进行基准测试的工具包,可以针对你的PyTorch模型选择最快的一个。通过PyPI提供Apache 2.0许可证,它提供预先调优(你提供模型和数据集)和即时调优(设置环境变量并运行现有脚本不变)两种模式。该工具验证优化后的模型产生正确的输出——解决了研究模型与生产就绪推理之间历史上令人痛苦的差距。

这解决了一个真正的工程难题。正如我在三月份写NVIDIA的Model Optimizer时所说,优化后端的激增为试图交付快速推理的团队造成了选择瘫痪。每个后端——TensorRT的GPU内核、Torch-TensorRT的PyTorch集成、TorchAO的加速框架——都有不同的甜点。在它们之间进行手动基准测试会消耗大多数团队无法承受的工程周期。AITune的自动选择消除了这种猜测。

值得注意的是,这个时机恰好与PyTorch最近在Blackwell GPU上进行MXFP8和NVFP4量化工作同步。生态系统正在分化为更专业化的优化路径,使自动选择更有价值但也更复杂。AITune处理后端选择,但在部署编排方面止步——你仍需要手动将优化后的模型连接到你的服务基础设施中。

对于已经在与推理优化斗争的团队,AITune在复杂pipeline中消除了一个决策点。即时模式对实验特别有吸引力——添加一个环境变量,看看能获得什么加速。但这是优化工具,不是部署解决方案。你仍然负责生产中的模型服务、扩展和监控。