研究者将程序直接硬编码进Transformer权重，无需训练

一名研究者展示了如何在不进行任何训练的情况下，将简单程序直接编译到transformer权重中，将该架构转变为确定性执行引擎。该方法将残差流视为工作内存，每一层视为机器步骤，注意力头执行查找，前馈网络执行局部计算。在一个例子中，硬编码的transformer执行查找操作(y=lookup[x]=5)，然后进行加法(z=y+1=6)，中间结果像寄存器一样存储在这台小型计算机中。

这代表了与标准范式的根本转变，传统上transformer通过在数据上优化来学习有用的电路。这种方法不是期望在训练过程中出现正确的模式，而是分析性地构造执行已知计算图所需的精确权重。这项工作为主流的"LLM加外部工具"架构提供了一个有趣的替代方案，有可能将确定性计算直接嵌入模型内部，而不需要它们跳出执行循环。

更广泛的背景显示了对transformer局限性日益增长的不满。Stanford的研究显示，两年内对非transformer架构的投资增长了400%，60%的领先AI实验室现在都有专门的团队研究后transformer方法。与此同时，Will Whitney等其他研究者正在探索完全不同的交互范式，提出AI应该更像带图形界面的计算机应用程序，而不是对话代理。这种硬编码方法不同于Percepta最近的工作，后者将通用解释器编译到权重中，同时通过prompt提供特定程序。

对于开发者来说，这种技术仍然高度专业化——适用于你有已知算法并希望保证执行而非学习近似的情况。但它暗示了混合架构的可能性，模型可以在灵活推理和精确计算模式之间切换，可能减少对数学运算外部API调用的依赖。

研究者将程序直接硬编码进Transformer权重，无需训练

更多新闻