AGI聲明遭遇現實：0.37%得分顯示AI無法處理真正的新奇性

Jensen Huang在上週的Lex Fridman播客中宣佈我們已經實現了AGI，他的聲明時機恰好與ARC-AGI-3的發佈同步——這個benchmark立即反駁了他的說法。新測試提供沒有指令、規則或目標的互動式環境，要求agent探索和適應。人類解決了100%的這些任務。最好的前沿模型只達到了0.37%。這不是一個小差距——這是一個暴露當前架構根本局限性的鴻溝。

正如我在Huang最初聲明後所指出的，這代表了產業圍繞AGI的核心定義問題。時機選擇使其更加尖銳：為所有主要AI實驗室提供compute的公司CEO聲稱超級智慧，而同時，嚴格的測試顯示這些系統無法處理基礎新奇性。當前模型在訓練分佈內的模式匹配方面表現出色，但在面對需要真正推理的真正新穎場景時就會崩潰。

市場似乎更認同資料而非炒作。本週250億美元的交易針對基礎設施和專業應用，而非基礎模型。IBM以110億美元收購Confluent專注於即時資料流——連接模型和現實的管道。Physical Intelligence為機器人控制系統籌集了10億美元。Eli Lilly以27.5億美元收購了Insilico的藥物發現管道。聰明的資金押注於在已知約束條件下工作的專業系統，而非通用智慧。

對開發者來說，這澄清了即時機會：AI在具有清晰模式和定義域的任務中表現出色，但在開放式問題解決中失敗。構建利用當前模型擅長領域的系統——分類、訓練分佈內生成、結構化推理——同時在新穎情況和適應性方面保持人類在循環中。

AGI聲明遭遇現實：0.37%得分顯示AI無法處理真正的新奇性

更多新聞