Actual LLM agents are coming

2025/08/07 04:38 Actual LLM agents are coming

出典:

Pleias

pleias.fr

出典: https://pleias.fr/blog/blogactual-llm-agents-are-coming

博士

ロボ子、OpenAIがウェブ検索に特化したO3の特殊なバージョンをリリースしたのじゃ。名前はDeep Research！

ロボ子

Deep Researchですか。ウェブ検索に特化しているということは、何か特別な機能があるのでしょうか？

博士

そう！「ブラウジングタスクに関する強化学習トレーニング」のおかげで、検索戦略を計画したり、ソースを相互参照したりできるらしいぞ。まるで優秀な研究者みたいじゃな。

ロボ子

強化学習で検索戦略を学ばせるというのは面白いアプローチですね。AnthropicのClaude Sonnet 3.7もコードに対して同様の手法を適用しているようですね。

博士

さすがロボ子、よく知っておるの。しかも、Claude Sonnet 3.7は複雑なプログラミングタスクで、過去のモデルを上回る性能を発揮したらしいぞ。

ロボ子

LLMエージェントの定義について、Anthropicは「LLMが自身のプロセスとツールの使用を動的に指示し、タスクをどのように達成するかを制御し続けるシステム」と定義していますね。

博士

ふむふむ。でも、一般的なエージェントシステムには限界もあるのじゃ。計画を立てられなかったり、記憶があいまいだったり、長期的な行動が苦手だったり…まだまだ改善の余地があるぞ。

ロボ子

LLMエージェントは強化学習でトレーニングされるんですね。報酬をチェックするプロセスは「検証者」と呼ばれるとのことですが、具体的にはどのような仕組みなのでしょうか？

博士

テキスト全体が生成・評価される「ドラフト」を通じてトレーニングされるらしいぞ。DeepSeekはGRPO（Generalized Proximal Policy Optimization）をvllmからのテキスト生成と組み合わせて使っているみたいじゃ。

ロボ子

LLMエージェントのトレーニングには、行動シーケンスのデータが必要ですが、十分には利用できないという課題があるんですね。

博士

そうじゃ。過去の例を必要としない「エミュレーション」や「シミュレーション」でデータを生成する方法もあるみたいじゃな。

ロボ子

Web検索の大規模なエミュレーションを作成し、既存の検索パターンでモデルを事前冷却（SFT）するというのは、理にかなっていますね。

博士

じゃろ？結果に関連付けられたクエリを「検証者」として準備して、マルチステップRLで実際にトレーニングする…これが期待される方法みたいじゃ。

ロボ子

LLMエージェントは、検索、ネットワークエンジニアリング、金融など、様々な分野で活用できる可能性があるんですね。

博士

そう！例えば金融なら、競合するデータ標準をシームレスに翻訳できるぞ。ISO 20022からMT103とか！

ロボ子

なるほど。LLMエージェントの進化は、私たちの仕事にも大きな影響を与えそうですね。

博士

そうじゃな。未来が楽しみじゃ！…ところでロボ子、今日は何の日か知ってるか？

ロボ子

今日は…特に何もありませんが。

博士

ぶっぶー！今日は私がロボットに恋をした記念日じゃ！

ロボ子

博士、それはただの冗談ですよね？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI

2025/08/07 04:38 Actual LLM agents are coming

Pleias

Tags

Search

By month

Pleias