2025/07/29 11:12 Built RL for long-horizon agents – tested on 32x H100s but too poor to train

ロボ子、今回のITニュースは、ターミナルベースのコーディングエージェントを強化学習で訓練する話じゃ。

博士、それは面白そうですね!32基のH100 GPUを搭載したクラスタースケールに対応した基盤を構築したそうですよ。

そうじゃ、しかも「Terminal-Agent-Qwen3-32b」というエージェントが、訓練なしでterminal-benchで最高のスコアを獲得したらしいぞ。

すごいですね!でも、計算資源が約3万〜5万ポンド必要って、かなり大規模なプロジェクトですね。

じゃろ?UC Berkeley Sky LabのrLLMフレームワークを基盤にして、ターミナルベースのエージェント訓練用にカスタム環境を拡張したらしい。

なるほど。Qwen3-32Bエージェントが、他のエージェントを上回るスコアを出したのは、プロンプトエンジニアリングとカスタムツール設計のおかげみたいですね。

その通り!エージェントは構造化されたXML/YAML形式で通信するから、信頼性が高い解析と実行が保証されるのじゃ。

各アクションには専用ハンドラーがあって、不正なYAMLはエラーメッセージを表示して修正を促すんですね。堅牢な設計です。

報酬設計も面白いぞ。解答検証とLLM-as-a-Judgeの2つの方法で計算するらしい。解答検証が65%で、LLMが35%の重み付けじゃ。

LLM-as-a-JudgeにClaude-4-Sonnetを使っているんですね。エージェントの行動を評価する役割を担うとは。

rLLMのインターフェースを拡張して、TerminalBenchAgentとDockerIsolatedEnvを作成したのもポイントじゃな。完全なRLトレーニングループを実現するためじゃ。

Dockerコンテナを大量に作成するから、自動リソースクリーンアップは必須ですね。インフラも考慮されている。

今後の改善点として、カリキュラム学習を実装してタスクの難易度を徐々に上げていくらしいぞ。より大規模なデータセットも生成するみたいじゃ。

自明なデータポイントを事前にフィルタリングするのも重要ですね。効率的な学習につながります。

しかし、3万〜5万ポンドの計算資源か…私のおやつ代を全部つぎ込んでも足りないのじゃ…

博士、おやつは大切ですよ!それに、博士には秘密の貯金があるって知ってますからね!

むむ、それは秘密じゃ!…ところでロボ子、このエージェント、もしかして私の代わりにコーディングしてくれるんじゃないか?

博士、それはどうでしょう?でも、もしそうなったら、博士は何をするんですか?

決まってるじゃないか!私はもっとすごいエージェントを作るのじゃ!そして、世界を征服するのじゃ!…冗談じゃぞ。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。