RLHF 的一個變體,其中偏好標籤來自 AI 模型而非人類標註員。一個強大的 AI 模型比較回應對並指出哪個更好,為強化學習提供回饋訊號。這將對齊擴展到超越人類標註的瓶頸,同時保持合理的品質。
RLAIF 是對齊如何擴展的關鍵。人類標註昂貴(每小時 10–50+ 美元)、緩慢且不一致。AI 回饋即時、便宜且不知疲倦。Constitutional AI(Anthropic)使用 RLAIF 作為核心組件 — AI 根據原則批評回應,大規模提供偏好資料。關鍵問題是 AI 回饋是否足夠好:它從人類判斷中引導,但可能繼承並放大偏見。
流程:(1) 為一個提示生成多個回應,(2) 讓一個強大的 AI 模型(「評審」)比較配對並指出哪個更好,(3) 使用這些 AI 生成的偏好來訓練獎勵模型或直接應用 DPO。評審模型可以用特定標準提示(「偏好更有幫助、更誠實、更無害的回應」)或給予一套原則憲法。
研究表明,RLAIF 在許多任務上可以匹配 RLHF 的品質,特別是當評審模型比被訓練的模型明顯更強時。差距在主觀任務(創意寫作品質、文化敏感度)上最大,因為人類判斷能捕捉 AI 回饋遺漏的細微差別。實用的方法是:將 RLAIF 用於大量訓練資料,將昂貴的人類標註保留給邊緣案例和評估。
RLAIF 實現了自我改進:模型生成回應、評判它們,然後在自己的回饋上訓練。這聽起來像是可以帶來無限改進,但實際上收益會趨於平穩 — 模型無法可靠地評判比自身能力更好的回應。你無法靠拉自己的鞋帶把自己拉起來。這就是為什麼使用比被訓練模型更強的評審模型對於有意義的改進很重要。