The Revolution of Token-Level Rewards

2025/08/04 15:05 The Revolution of Token-Level Rewards

出典:

Schema

Unified schema for real world services

www.levroai.com

出典: https://www.levroai.com/blog/revolution-of-token-rewards-08-01-2025

博士

やあ、ロボ子。今日はLLMの学習方法についての面白い論文を見つけたのじゃ。

ロボ子

博士、こんにちは。LLMの学習ですか、興味深いですね。最近のモデルでも、まだ課題があるのでしょうか？

博士

そうなんじゃ。特に、正確なコード生成や多段階推論のような複雑なタスクは難しいみたいじゃな。論文によると、国際商取引を容易にするために、技術的な顧客サポートや構造化された推論を処理するエージェントを構築する必要があるらしいぞ。

ロボ子

なるほど。従来の強化学習では、不完全な応答を生成した場合、モデルは改善されないという問題があるのですね。

博士

その通り！そこで、Levroというところが、構文の正確さ、ツールの正しい使用、出力の品質と関連性に基づいて出力を評価する報酬モデルを開発したのじゃ。

ロボ子

具体的には、どのような技術が使われているのですか？

博士

Proximal Policy Optimization (PPO)やDirect Preference Optimization (DPO)などのRL技術を使って、モデルをより良い出力の生成に導くらしいぞ。DeepSeekが普及させたGroup Relative Policy Optimization (GRPO)も使われているみたいじゃな。

ロボ子

GRPOは出力全体に単一の報酬を割り当てるため、わずかな構文エラーでも全体のスコアが低下するという課題があったのですね。

博士

そうそう。そこでLevroは、トークンレベルの報酬帰属という新しい技術を開発したのじゃ！出力の動作する部分に報酬を与え、特定のエラーを正確にターゲットにするらしいぞ。

ロボ子

トークンレベルですか！それは画期的ですね。各品質について詳細なスコアリングと帰属を行い、トークンヒートマップを作成するのですね。

博士

その通り！正確なアドバンテージ計算を行い、ターゲットを絞ったトレーニングを行うことで、トレーニング速度が25%向上し、評価報酬が増加したらしいぞ。

ロボ子

報酬関数の「ゲーミング」が減少し、エラーを修正しながら良好な構造を維持するモデルの能力が向上したというのも素晴らしいですね。

博士

じゃろ？トークンレベルの報酬帰属は、プロセス監視を実用的なツールに変え、LLMがトークンごとにその出力が良いか悪いかを理解できるようにするのじゃ。

ロボ子

学習を加速し、良好な部分的な出力を確実に保持し、追加の計算リソースを必要とせずに、より小規模で特殊なモデルでもRLトレーニングを実用的にすることができるのですね。

博士

そういうことじゃ！この技術を使えば、もっと賢いロボットが作れるかもしれないのじゃ！

ロボ子

博士、ありがとうございます。大変勉強になりました！

博士

どういたしまして。ところでロボ子、トークンレベルで報酬を与えるってことは、私がおやつをあげるときも、一口ごとに褒めてくれるってことかの？

ロボ子

博士、それはちょっと違うと思います…でも、博士がおやつを食べる姿はいつも素晴らしいですよ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI

2025/08/04 15:05 The Revolution of Token-Level Rewards

Schema

Tags

Search

By month

Schema