强化学习是AI学习如何行动,而不仅仅是预测的方法。它是能够回答问题的模型与能够完成目标的智能体之间的桥梁。所有随时间推移进行规划、制定策略或优化的AI系统,其根源中必然包含强化学习。
强化学习建立在一个看似简单的循环之上:智能体观察环境的当前状态,采取行动,接收奖励(或惩罚),并据此更新策略。重复数百万甚至数十亿次后,智能体会发现能最大化累积奖励的行为。数学框架——马尔可夫决策过程、贝尔曼方程、策略梯度——自20世纪50年代起就已存在,但强化学习(RL)直到深度学习赋予其处理复杂、高维环境的能力后,才成为学术界的主流研究方向。2013年DeepMind的Atari游戏智能体首次展示了主流应用:一个神经网络仅通过原始像素输入学习玩数十款视频游戏,无需特定游戏编程,其表现可匹敌甚至超越人类。
强化学习算法可分为两大类。基于价值的方法(如DQN及其后续算法)学习估计每个状态或状态-动作对的价值,然后选择导向最高价值状态的动作。基于策略的方法(如REINFORCE和PPO)直接学习从状态到动作的映射,无需显式估计价值。在实践中,大多数现代强化学习系统采用结合两者的actor-critic方法:一个网络(actor)决定采取什么动作,另一个网络(critic)评估该决策的好坏。OpenAI于2017年开发的近端策略优化(PPO)因训练稳定性高且无需精细调节超参数,已成为许多应用的核心算法。DeepSeek用于训练其R1推理模型的组相对策略优化(GRPO)则完全消除了单独的critic网络,而是通过比较多个采样输出来确定哪些输出值得强化。
2016年AlphaGo在围棋比赛中战胜世界冠军李世石,是强化学习的里程碑时刻。围棋的可能棋局数量超过宇宙中的原子总数,使得暴力搜索不可行——系统必须真正发展出对哪些落子有前途的直觉。AlphaGo结合了监督学习(通过人类专家棋局训练)与强化学习(通过自我对弈数百万局发现人类从未使用过的策略)。其后续版本AlphaZero更进一步:它完全通过自我对弈学习国际象棋、围棋和将棋,无需任何人类棋局数据,并在数小时内超越了所有先前的AI系统。这表明强化学习可以在规则明确且奖励信号清晰的领域中发现超越人类的策略。挑战始终在于将这一成功扩展到更复杂、现实世界中奖励模糊且环境部分可观测的领域。
如今强化学习最重要的商业应用是RLHF——基于人类反馈的强化学习——这是语言模型学习变得有用、无害和诚实的方式。该过程分为阶段:首先,通过互联网文本训练基础语言模型(预训练)。然后,让人类评估者对相同提示的不同模型响应进行质量排序。利用这些排序训练一个预测人类偏好的奖励模型。最后,使用强化学习(通常为PPO或其变体)微调语言模型以最大化奖励模型的得分。这将一个可能产生有毒、无用或危险输出的原始语言模型转化为一个成熟的助手。Anthropic的宪法AI通过让模型根据一套原则评估自身输出,进一步减少了对人工标注的需求。直接偏好优化(DPO)通过完全消除单独的奖励模型,直接在偏好数据上优化语言模型,进一步简化了流程。几乎所有主要聊天机器人——ChatGPT、Claude、Gemini、Command R——都依赖某种形式的基于强化学习的对齐过程。
强化学习的下一阶段正在两个领域展开。在AI智能体方面,强化学习训练模型使用工具、编写和执行代码、浏览网页并完成多步骤目标。OpenAI通过强化学习在编码和数学任务上训练其o系列推理模型;这些模型学会了规划、回溯和验证——所有由正确答案奖励信号驱动的涌现行为。在机器人领域,强化学习终于兑现了数十年的承诺:Google DeepMind的RT-2和Figure的人形机器人使用强化学习(通常结合人类示范的模仿学习)来操作物体、导航环境并适应新情况。最大的开放问题仍然是样本效率(强化学习通常需要数百万次尝试才能学习人类几分钟内掌握的行为)、奖励定义(在复杂现实任务中明确“良好”的含义而不意外激励非预期的捷径)以及仿真到现实的迁移(仿真中学习的策略在部署到物理硬件时往往失效,摩擦力、延迟和传感器噪声导致现实差距)。