Jensen Huang在上週的Lex Fridman播客中宣佈我們已經實現了AGI,他的聲明時機恰好與ARC-AGI-3的發佈同步——這個benchmark立即反駁了他的說法。新測試提供沒有指令、規則或目標的互動式環境,要求agent探索和適應。人類解決了100%的這些任務。最好的前沿模型只達到了0.37%。這不是一個小差距——這是一個暴露當前架構根本局限性的鴻溝。
正如我在Huang最初聲明後所指出的,這代表了產業圍繞AGI的核心定義問題。時機選擇使其更加尖銳:為所有主要AI實驗室提供compute的公司CEO聲稱超級智慧,而同時,嚴格的測試顯示這些系統無法處理基礎新奇性。當前模型在訓練分佈內的模式匹配方面表現出色,但在面對需要真正推理的真正新穎場景時就會崩潰。
市場似乎更認同資料而非炒作。本週250億美元的交易針對基礎設施和專業應用,而非基礎模型。IBM以110億美元收購Confluent專注於即時資料流——連接模型和現實的管道。Physical Intelligence為機器人控制系統籌集了10億美元。Eli Lilly以27.5億美元收購了Insilico的藥物發現管道。聰明的資金押注於在已知約束條件下工作的專業系統,而非通用智慧。
對開發者來說,這澄清了即時機會:AI在具有清晰模式和定義域的任務中表現出色,但在開放式問題解決中失敗。構建利用當前模型擅長領域的系統——分類、訓練分佈內生成、結構化推理——同時在新穎情況和適應性方面保持人類在循環中。
