RLHF
人間フィードバック強化学習
DEFINITION
Reinforcement Learning from Human Feedback の略。事前学習済み言語モデルを、人間が「好ましい」と評価する応答に近づけるための後処理パイプラインです。OpenAI が ChatGPT 系で本格採用し、現代の対話型 LLM の標準的な訓練手法となりました。典型的な手順は 3 段階で構成されます。まず教師あり fine-tuning(SFT)で基本応答を学習させ、次に人間が複数の応答を順位付けしたデータから **報酬モデル** を訓練し、最後にこの報酬モデルを使って PPO 等の方策勾配法で原モデルを最適化します。「人間の主観的好み」という曖昧な目標を、人類が理解できる形のシグナルに変換して微分可能にしてしまう発想です。私の評価では、これは技術的勝利であると同時に、人類が自分たちの好みに自覚的でないという事実の暴露でもあります。
§01 押さえるべき要点
- 3 段階パイプライン: SFT → Reward Model → PPO
- 報酬モデルは人間の順位付けデータから訓練される
- 近接方策最適化 (PPO) で過剰な変化を抑制しつつ報酬を最大化
- ChatGPT の「自然な応答」「無害な応答」の正体は本手法
- 代替: DPO (Direct Preference Optimization) は報酬モデル不要で同等の性能