Sony AI 这个月在 Nature 发表了 Project Ace,标题数字是他们的乒乓球机器人对有十年以上经验的精英玩家以五局三胜取胜,并且已经在 2025 年 12 月以来的比赛中击败了几位高水平职业选手。这是相对于 Google DeepMind 2024 年那台只达到业余水平的乒乓球机器人的一次有意义的跨越。项目负责人 Peter Dürr 的团队正在做出迄今最有力的"在任何竞技体育项目中达到专家级表现"的主张——这个类别此前要么需要纯仿真环境,要么只能处理一两个训练过的场景。
从开发者视角看这篇论文有意思的地方不是深度强化学习。RL 很常规:一个策略接收球的状态,预测下一拍往哪打。让它真正能用的是感知 stack:横跨三套视觉系统的九台摄像头,200 Hz 球体跟踪、毫米级精度、约 10 毫秒延迟,以及高达 700 Hz 的旋转测量。乒乓球本质上先是感知问题,然后才是控制问题——一颗 40 毫米的球以 30 米每秒飞过来,你只有大约 50 毫秒去读旋转、预测轨迹、决定打法、挥拍。把感知压到 10 毫秒以下,一个像样的控制策略就能搞定剩下的。停在 30 毫秒,你永远是在响应球过去在哪里,而不是它现在在哪里。
论文里诚实的局限——一位对手职业选手指出来的——是机器人没有像人那样适应。那句"不可能感觉到它讨厌哪种球路"恰好和人类高水平比赛的运作方式相反。人类读对手的肢体语言、引拍时的拍面角度和重心转移来在球被击中之前就预判方向,并在多个回合里把回合往对手的弱点上引导。Project Ace 把每个球都打得很干净,但不会在一场比赛中学习这个人。Sony 也承认这点;"适应对手并找到弱点"是开放的研究方向。这个差距正是"有时打败好手"和"赢得比赛"之间的距离。
对于在思考具身智能的开发者来说,Sony 这个结果是对"瓶颈永远是模型"叙事的一次有用纠正。这次模型相当标准,载体高度专门化,突破点在传感器融合和实时感知。同样的教训适用于任何需要对快速变化物理状态作出反应的机器人产品:你可以往策略上扔任意算力,但如果你的感知回路比你关心的动力学更慢,策略质量就无关紧要。下一波值得认真对待的具身 AI demo,会是把感知延迟和精度跟策略 benchmark 一起公布的那些。Sony 做了。不做的那些论文,通常是在藏什么。
