強化學習是 AI 學習如何行動的方式,而不僅僅是預測—它是能夠回答問題的模型與能夠達成目標的智能體之間的橋樑。任何需要規劃、策略制定或長期最佳化的 AI 系統,皆有強化學習的血脈。
強化學習建基於一個看似簡單卻具有欺騙性的迴圈:代理程式觀察環境的當前狀態,採取行動,接收獎勵(或懲罰),並根據此更新其策略。重複數百萬或數十億次後,代理程式便能發現能最大化累積獎勵的行為。數學框架——馬可夫決策過程(Markov Decision Processes)、貝爾曼方程式(Bellman equations)、策略梯度(policy gradients)——自1950年代便已存在,但強化學習(RL)直到深度學習讓其具備處理複雜、高維度環境的能力前,始終僅是學術界的小眾研究領域。2013年DeepMind的Atari遊戲代理程式是第一個主流示範:一個僅透過原始像素輸入學習玩數十款視訊遊戲的神經網絡,沒有特定遊戲的程式設計,其表現甚至可匹敵或超越人類。
強化學習演算法大致可分為兩大類。基於價值的方法(如DQN及其後繼演算法)學習估算每個狀態或狀態-行動組合的價值,然後選擇導致最高價值狀態的行動。基於策略的方法(如REINFORCE與PPO)則直接學習從狀態到行動的映射,而無需明確估算價值。實際上,大多數現代強化學習系統使用結合兩者的actor-critic方法:一個網絡(actor)決定該做什麼,另一個網絡(critic)評估該決定有多好。OpenAI於2017年開發的近端策略優化(Proximal Policy Optimization, PPO)因其訓練相對穩定且無需仔細調整超參數,成為許多應用的主力演算法。DeepSeek用於訓練其R1推理模型的群組相對策略優化(Group Relative Policy Optimization, GRPO)則完全省略了獨立的critic網絡,改為透過比較多個採樣輸出,來判定哪些輸出值得強化。
AlphaGo於2016年在圍棋遊戲中擊敗世界冠軍李世石,是強化學習的里程碑時刻。圍棋的可能棋盤狀態比宇宙中的原子數還要多,使得暴力搜尋變得不可能——系統必須發展出真正的直覺,判斷哪些著法有潛力。AlphaGo結合監督學習(透過人類高手對局進行訓練)與強化學習(透過與自身對戰數百萬局,發現人類從未使用過的策略)。其後繼者AlphaZero更進一步:它完全透過自我對弈學習國際象棋、圍棋與將棋,完全不使用人類對局資料,並在數小時內便超越所有先前的AI系統。這證明了強化學習能在規則明確且獎勵信號清晰的領域中發現超人類策略。挑戰始終在於將這種成功擴展至更混亂的現實世界領域,那裡的獎勵含糊且環境部分可觀察。
目前最商業重要的強化學習應用是RLHF——基於人類反饋的強化學習(Reinforcement Learning from Human Feedback),這正是語言模型學習如何有幫助、無害且誠實的方式。這個過程分階段進行:首先,透過網際網路文本訓練基礎語言模型(預訓練)。然後,讓人類評估者根據品質對相同提示的多個模型回應進行排序。利用這些排序訓練一個預測人類偏好的獎勵模型。最後,使用強化學習(通常為PPO或其變體)微調語言模型,以最大化獎勵模型的分數。這正是將一個可能產生有毒、無助或危險輸出的原始語言模型,轉化為精緻助理的關鍵步驟。Anthropic的憲法AI(Constitutional AI)進一步擴展了這個概念,讓模型根據一套原則評估自己的輸出,減少對人類標註者的依賴。直接偏好優化(Direct Preference Optimization, DPO)則進一步簡化流程,完全省略獨立的獎勵模型,直接在偏好資料上優化語言模型。幾乎所有主要聊天機器人——ChatGPT、Claude、Gemini、Command R——都依賴某種形式的這種基於強化學習的對齊過程。
強化學習的下一章正在兩個領域展開。在AI代理程式方面,強化學習訓練模型使用工具、撰寫並執行程式碼、瀏覽網頁,並完成多步驟目標。OpenAI透過強化學習訓練其o系列推理模型進行程式設計與數學任務;模型學會規劃、回溯與驗證——所有這些都是由正確答案的獎勵信號驅動的自發行為。在機器人領域,強化學習終於實現了數十年來的承諾:Google DeepMind的RT-2與Figure的人形機器人都使用強化學習(通常結合人類示範的模仿學習)來操作物件、導航環境並適應新情境。最大的開放問題仍然是樣本效率(強化學習通常需要數百萬次試驗才能學習人類幾分鐘內就能掌握的行為)、獎勵定義(在複雜現實任務中明確「良好」的含義,而不會意外地激勵非預期的捷徑),以及模擬到現實的轉移(在模擬中學習的策略在部署到物理硬體時往往失效,因為摩擦力、延遲與感測器雜訊會造成現實差距)。