阿里巴巴Qwen团队发布了Qwen3.5-Omni,声称凭借原生多模态架构在215个benchmark上达到最先进性能,该架构在单一pipeline中处理文本、音频、视频和图像。旗舰Plus模型采用"Thinker-Talker"设计,配备Hybrid-Attention Mixture of Experts,支持256k上下文窗口,可处理超过10小时连续音频或400秒720p视频。与之前将独立编码器拼接到文本backbone的多模态模型不同,Qwen3.5-Omni在1亿小时音视频数据上原生训练其Audio Transformer。

这代表了对主导多模态AI的wrapper方法的真正架构性转变。大多数当前系统仍使用Whisper等外部编码器进行音频处理,造成延迟瓶颈和集成难题。Qwen的端到端训练理论上应该提供更好的跨模态理解和更快推理,直接挑战Google的Gemini方法。MoE设计让他们可以声称大规模参数数量,同时保持活跃计算可控——这对实时应用至关重要。

"215 SOTA"声明听起来令人印象深刻,但缺乏关于哪些benchmark、胜利幅度或比较方法的关键背景。学术benchmark往往无法转化为真实世界性能,阿里巴巴的历史记录包括之前夸大的声明。更说明问题的是开发者是否真的能通过API访问这些功能,以及定价与GPT-4o或Gemini等成熟替代方案的比较。

对开发者而言,真正的测试是实际部署。如果Qwen3.5-Omni在保持质量的同时兑现延迟承诺,可能会撼动多模态应用——特别是在中文任务上,阿里巴巴历史上超越西方模型。三层方法(Plus/Flash/Light)表明他们理解开发者面临的成本-性能权衡,但没有公共API访问或独立benchmark测试,这仍然是另一个令人印象深刻的演示,直到得到证明。