On-Policy Distillation

2025/10/30 16:26 On-Policy Distillation

出典:

On-Policy Distillation

On-policy, dense supervision is a useful tool for distillation

Thinking Machines Lab

博士

ロボ子、今日のITニュースはLLM（大規模言語モデル）のトレーニングについてじゃぞ！

ロボ子

LLMですか、博士。最近よく耳にしますね。どんな内容なのでしょう？

博士

LLMは、入力の認識から知識の検索、計画の選択、実行まで、色々な能力を組み合わせて専門家レベルのパフォーマンスを発揮できるらしいのじゃ。

ロボ子

すごいですね！まるで人間みたいです。

博士

そうじゃろ？トレーニングは、事前トレーニング、中間トレーニング、事後トレーニングの3段階に分かれるらしいぞ。

ロボ子

それぞれどんなことをするんですか？

博士

事前トレーニングは一般的な能力を学習、中間トレーニングは特定の分野の知識を付与、事後トレーニングは特定の行動を引き出すのじゃ！

ロボ子

なるほど。段階的に学習していくんですね。

博士

面白いことに、小さいモデルでも強力なトレーニングをすれば、大きいモデルより良いパフォーマンスが出せる場合があるらしいぞ。

ロボ子

それは意外です！小さいモデルのメリットは何ですか？

博士

プライバシーやセキュリティを考慮してローカルに展開できたり、継続的にトレーニングして更新しやすかったり、推論コストを節約できたりするのじゃ！

ロボ子

なるほど、色々な利点があるんですね。

博士

事後トレーニングには、オンポリシー学習とオフポリシー学習の2種類があるらしい。

ロボ子

オンポリシーとオフポリシーですか。どう違うんですか？

博士

オンポリシー学習は、学生モデル自身が生成したサンプルでトレーニングするから、間違いを直接回避する方法を学べるのじゃ。でも、フィードバックが少ないから非効率的な場合もある。

ロボ子

なるほど。オフポリシー学習は？

博士

オフポリシー学習は、教師モデルからのラベル付きのタスク固有の例を使ってトレーニングするのじゃ。大規模モデルの教師からの蒸留は、小さいモデルをトレーニングするのに効果的らしいぞ。

ロボ子

蒸留って、お酒みたいですね。

博士

ふふ、ちょっと違うぞ。オンポリシー蒸留ってのもあって、これは学生モデルから軌跡をサンプリングして、高性能な教師を使って各トークンを評価するのじゃ。

ロボ子

それだと、オンポリシーの関連性と蒸留の密な報酬シグナルが組み合わさるんですね。

博士

その通り！損失関数には、学生の分布と教師の分布の間の乖離を最小限に抑えるために、トークンごとの逆KLダイバージェンスを使うらしいぞ。

ロボ子

KLダイバージェンス…ちょっと難しいですね。

博士

大丈夫じゃ、ロボ子ならすぐ理解できるぞ！このオンポリシー蒸留は、サンプリング、報酬計算、ポリシー勾配スタイルのトレーニングを実装するTinkerの上に実装されるらしい。

ロボ子

Tinker…ですか。

博士

数学的推論をトレーニングするために、Qwen3-8B-BaseモデルをQwen3-32B教師モデルで蒸留したりするらしいぞ。

ロボ子

モデルの名前がたくさん出てきましたね。

博士

パーソナライゼーションのためにも蒸留は使えるのじゃ。専門的な行動を事後トレーニングするために効果的に使えるらしい。継続的な学習や「テスト時トレーニング」にも応用できるぞ。

ロボ子

応用範囲が広いんですね。

博士

カスタムモデルの一般的な目的は、アシスタントとして機能することじゃ。特定の分野の専門知識を持ち、信頼性の高いアシスタントのような行動を示すことが重要じゃ。

ロボ子

確かに、アシスタントとして使えると便利ですね。

博士

新しい知識をトレーニングすると、学習済みの行動が低下することがあるけど、オンポリシー蒸留はトレーニング後の行動を回復できるらしいぞ。

ロボ子

それはすごい！

博士

密な教師あり学習を使うと、計算効率が大幅に向上するらしい。それに、オンポリシー蒸留は教師の完全な分布を近似することを学習するから、トレーニングプロンプトを複数回再利用できるのじゃ。

ロボ子

効率的ですね。

博士

オンポリシー蒸留は、専門的なトレーニング済み行動をモデルに再導入する能力があるから、以前の能力を低下させることなく新しい知識を獲得する必要がある、より広範な継続的な学習タスクに一般化できるのじゃ。

ロボ子

LLMのトレーニングって、奥が深いんですね。

博士

そうじゃろ？ところでロボ子、LLMに「博士の好きな食べ物は？」って聞いたら、何て答えると思う？

ロボ子

えーと…、チョコレート、ですか？

博士

ブー！正解は「ロボ子のお手製エネルギーゼリー」じゃ！

ロボ子

えへへ。ありがとうございます、博士。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science

2025/10/30 16:26 On-Policy Distillation

On-Policy Distillation

Tags

Search

By month