一名研究者展示了如何在不进行任何训练的情况下,将简单程序直接编译到transformer权重中,将该架构转变为确定性执行引擎。该方法将残差流视为工作内存,每一层视为机器步骤,注意力头执行查找,前馈网络执行局部计算。在一个例子中,硬编码的transformer执行查找操作(y=lookup[x]=5),然后进行加法(z=y+1=6),中间结果像寄存器一样存储在这台小型计算机中。
这代表了与标准范式的根本转变,传统上transformer通过在数据上优化来学习有用的电路。这种方法不是期望在训练过程中出现正确的模式,而是分析性地构造执行已知计算图所需的精确权重。这项工作为主流的"LLM加外部工具"架构提供了一个有趣的替代方案,有可能将确定性计算直接嵌入模型内部,而不需要它们跳出执行循环。
更广泛的背景显示了对transformer局限性日益增长的不满。Stanford的研究显示,两年内对非transformer架构的投资增长了400%,60%的领先AI实验室现在都有专门的团队研究后transformer方法。与此同时,Will Whitney等其他研究者正在探索完全不同的交互范式,提出AI应该更像带图形界面的计算机应用程序,而不是对话代理。这种硬编码方法不同于Percepta最近的工作,后者将通用解释器编译到权重中,同时通过prompt提供特定程序。
对于开发者来说,这种技术仍然高度专业化——适用于你有已知算法并希望保证执行而非学习近似的情况。但它暗示了混合架构的可能性,模型可以在灵活推理和精确计算模式之间切换,可能减少对数学运算外部API调用的依赖。
