一名研究者展示了如何在不進行任何訓練的情況下,將簡單程式直接編譯到transformer權重中,將該架構轉變為確定性執行引擎。該方法將殘差流視為工作記憶體,每一層視為機器步驟,注意力頭執行查找,前饋網路執行局部計算。在一個例子中,硬編碼的transformer執行查找操作(y=lookup[x]=5),然後進行加法(z=y+1=6),中間結果像暫存器一樣儲存在這台小型電腦中。

這代表了與標準範式的根本轉變,傳統上transformer透過在資料上最佳化來學習有用的電路。這種方法不是期望在訓練過程中出現正確的模式,而是分析性地構造執行已知計算圖所需的精確權重。這項工作為主流的"LLM加外部工具"架構提供了一個有趣的替代方案,有可能將確定性計算直接嵌入模型內部,而不需要它們跳出執行迴圈。

更廣泛的背景顯示了對transformer局限性日益增長的不滿。Stanford的研究顯示,兩年內對非transformer架構的投資增長了400%,60%的領先AI實驗室現在都有專門的團隊研究後transformer方法。與此同時,Will Whitney等其他研究者正在探索完全不同的互動範式,提出AI應該更像帶圖形介面的電腦應用程式,而不是對話代理。這種硬編碼方法不同於Percepta最近的工作,後者將通用直譯器編譯到權重中,同時透過prompt提供特定程式。

對於開發者來說,這種技術仍然高度專業化——適用於你有已知演算法並希望保證執行而非學習近似的情況。但它暗示了混合架構的可能性,模型可以在靈活推理和精確計算模式之間切換,可能減少對數學運算外部API呼叫的依賴。