研究者將程式直接硬編碼進Transformer權重，無需訓練

一名研究者展示了如何在不進行任何訓練的情況下，將簡單程式直接編譯到transformer權重中，將該架構轉變為確定性執行引擎。該方法將殘差流視為工作記憶體，每一層視為機器步驟，注意力頭執行查找，前饋網路執行局部計算。在一個例子中，硬編碼的transformer執行查找操作(y=lookup[x]=5)，然後進行加法(z=y+1=6)，中間結果像暫存器一樣儲存在這台小型電腦中。

這代表了與標準範式的根本轉變，傳統上transformer透過在資料上最佳化來學習有用的電路。這種方法不是期望在訓練過程中出現正確的模式，而是分析性地構造執行已知計算圖所需的精確權重。這項工作為主流的"LLM加外部工具"架構提供了一個有趣的替代方案，有可能將確定性計算直接嵌入模型內部，而不需要它們跳出執行迴圈。

更廣泛的背景顯示了對transformer局限性日益增長的不滿。Stanford的研究顯示，兩年內對非transformer架構的投資增長了400%，60%的領先AI實驗室現在都有專門的團隊研究後transformer方法。與此同時，Will Whitney等其他研究者正在探索完全不同的互動範式，提出AI應該更像帶圖形介面的電腦應用程式，而不是對話代理。這種硬編碼方法不同於Percepta最近的工作，後者將通用直譯器編譯到權重中，同時透過prompt提供特定程式。

對於開發者來說，這種技術仍然高度專業化——適用於你有已知演算法並希望保證執行而非學習近似的情況。但它暗示了混合架構的可能性，模型可以在靈活推理和精確計算模式之間切換，可能減少對數學運算外部API呼叫的依賴。

研究者將程式直接硬編碼進Transformer權重，無需訓練

更多新聞