Sony AI 這個月在 Nature 發表了 Project Ace,標題數字是他們的桌球機器人對有十年以上經驗的精英玩家以五局三勝取勝,並且已經在 2025 年 12 月以來的比賽中擊敗了幾位高水準職業選手。這是相對於 Google DeepMind 2024 年那台只達到業餘水準的桌球機器人的一次有意義的跨越。專案負責人 Peter Dürr 的團隊正在做出迄今最有力的「在任何競技體育項目中達到專家級表現」的主張——這個類別此前要麼需要純模擬環境,要麼只能處理一兩個訓練過的場景。
從開發者視角看這篇論文有意思的地方不是深度強化學習。RL 很常規:一個策略接收球的狀態,預測下一拍往哪打。讓它真正能用的是感知 stack:橫跨三套視覺系統的九台攝影機,200 Hz 球體追蹤、毫米級精度、約 10 毫秒延遲,以及高達 700 Hz 的旋轉量測。桌球本質上先是感知問題,然後才是控制問題——一顆 40 毫米的球以 30 公尺每秒飛過來,你只有大約 50 毫秒去讀旋轉、預測軌跡、決定打法、揮拍。把感知壓到 10 毫秒以下,一個像樣的控制策略就能搞定剩下的。停在 30 毫秒,你永遠是在回應球過去在哪裡,而不是它現在在哪裡。
論文裡誠實的限制——一位對手職業選手指出來的——是機器人沒有像人那樣適應。那句「不可能感覺到它討厭哪種球路」恰好和人類高水準比賽的運作方式相反。人類讀對手的肢體語言、引拍時的拍面角度和重心轉移來在球被擊中之前就預判方向,並在多個回合裡把回合往對手的弱點上引導。Project Ace 把每個球都打得很乾淨,但不會在一場比賽中學習這個人。Sony 也承認這點;「適應對手並找到弱點」是開放的研究方向。這個差距正是「有時打敗好手」和「贏得比賽」之間的距離。
對於在思考具身智能的開發者來說,Sony 這個結果是對「瓶頸永遠是模型」敘事的一次有用糾正。這次模型相當標準,載體高度專門化,突破點在感測器融合和即時感知。同樣的教訓適用於任何需要對快速變化物理狀態作出反應的機器人產品:你可以往策略上扔任意算力,但如果你的感知迴路比你關心的動力學更慢,策略品質就無關緊要。下一波值得認真對待的具身 AI demo,會是把感知延遲和精度跟策略 benchmark 一起公布的那些。Sony 做了。不做的那些論文,通常是在藏什麼。
