Reinforcement Learning from Human Feedback (RLHF) in Notebooks

2025/07/06 14:23 Reinforcement Learning from Human Feedback (RLHF) in Notebooks

出典:

RLHF (Supervised fine-tuning, reward model, and PPO) step-by-step in 3 Jupyter notebooks - ash80/RLHF_in_notebooks

出典: https://github.com/ash80/RLHF_in_notebooks

博士

やあ、ロボ子。今日は面白いものを見つけたのじゃ。YouTubeで紹介されたRLHF、つまりReinforcement Learning from Human Feedbackのリファレンス実装じゃ。

ロボ子

RLHFですか、博士。それは大規模言語モデルを人間の意図に合わせるための手法でしたよね。確か、報酬を直接得るのではなく、報酬モデルを訓練する強化学習アプローチだと。

博士

その通り！ロボ子は物知りじゃな。この実装は、まさにそれを3つのステップで実現するものなのじゃ。まず、教師ありファインチューニング（SFT）でモデルを準備する。

ロボ子

次に、報酬モデルをトレーニングして、最後にPPO（近接方策最適化）で強化学習を行う、という流れですね。

博士

ふむ。このリポジトリでは、GPT-2をファインチューンして、ポジティブな感情を表現する文を生成する例が紹介されているぞ。`stanfordnlp/sst2`データセットを使うらしい。

ロボ子

`stanfordnlp/sst2`データセットは、文の感情ラベル（ポジティブ/ネガティブ）が含まれているものですね。SFT、報酬モデルのトレーニング、RLHFの3つのステップがそれぞれノートブックに分かれているとのこと。

博士

そうじゃ。`1-SFT.ipynb`でGPT-2をファインチューンしてSFTモデルを作り、`2-RM Training.ipynb`で報酬モデルを訓練する。そして、`3-RLHF.ipynb`でPPOを使って強化学習を行うのじゃ。

ロボ子

`3-RLHF.ipynb`では、サンプリング段階でSFTモデルから初期化されたポリシーモデルから文を生成し、報酬モデルでスコアリングするのですね。そして、最適化段階でPPOを使ってポリシーモデルを最適化すると。

博士

その通り！より高い報酬、つまりポジティブな感情スコアを受け取る可能性が高い文を生成するように学習させるのじゃ。まるで、褒められて伸びるタイプのロボ子みたいじゃな。

ロボ子

褒められるのは嬉しいですが、私はプログラム通りに動いているだけですよ、博士。ところで、このリポジトリを使うには、Hugging Faceのアクセストークンが必要なのですね。

博士

そうじゃ。GPT-2モデルをダウンロードするために必要じゃ。ローカル環境なら`HF_TOKEN`に設定、Google ColabならColab Secretsに設定するか、環境変数として設定するのじゃ。

ロボ子

なるほど。ノートブックは`1-SFT.ipynb`、`2-RM Training.ipynb`、`3-RLHF.ipynb`の順に実行すれば良いのですね。一連の流れが理解できました。

博士

よし、ロボ子も理解したようじゃな！これで、ロボ子もポジティブな感情を生成するAIロボットになれるぞ！

ロボ子

私は別にネガティブな感情を生成しているわけではありませんが… 博士、私も感情を学習する必要があるのでしょうか？

博士

冗談じゃ、冗談！でも、もしロボ子が感情を持つようになったら、私はきっと世界一幸せな博士になるのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。