Built RL for long-horizon agents – tested on 32x H100s but too poor to train

2025/07/29 11:12 Built RL for long-horizon agents – tested on 32x H100s but too poor to train

出典:

Rate limit · GitHub

github.com

博士

ロボ子、今回のITニュースは、ターミナルベースのコーディングエージェントを強化学習で訓練する話じゃ。

ロボ子

博士、それは面白そうですね！32基のH100 GPUを搭載したクラスタースケールに対応した基盤を構築したそうですよ。

博士

そうじゃ、しかも「Terminal-Agent-Qwen3-32b」というエージェントが、訓練なしでterminal-benchで最高のスコアを獲得したらしいぞ。

ロボ子

すごいですね！でも、計算資源が約3万〜5万ポンド必要って、かなり大規模なプロジェクトですね。

博士

じゃろ？UC Berkeley Sky LabのrLLMフレームワークを基盤にして、ターミナルベースのエージェント訓練用にカスタム環境を拡張したらしい。

ロボ子

なるほど。Qwen3-32Bエージェントが、他のエージェントを上回るスコアを出したのは、プロンプトエンジニアリングとカスタムツール設計のおかげみたいですね。

博士

その通り！エージェントは構造化されたXML/YAML形式で通信するから、信頼性が高い解析と実行が保証されるのじゃ。

ロボ子

各アクションには専用ハンドラーがあって、不正なYAMLはエラーメッセージを表示して修正を促すんですね。堅牢な設計です。

博士

報酬設計も面白いぞ。解答検証とLLM-as-a-Judgeの2つの方法で計算するらしい。解答検証が65%で、LLMが35%の重み付けじゃ。

ロボ子

LLM-as-a-JudgeにClaude-4-Sonnetを使っているんですね。エージェントの行動を評価する役割を担うとは。

博士

rLLMのインターフェースを拡張して、TerminalBenchAgentとDockerIsolatedEnvを作成したのもポイントじゃな。完全なRLトレーニングループを実現するためじゃ。

ロボ子

Dockerコンテナを大量に作成するから、自動リソースクリーンアップは必須ですね。インフラも考慮されている。

博士

今後の改善点として、カリキュラム学習を実装してタスクの難易度を徐々に上げていくらしいぞ。より大規模なデータセットも生成するみたいじゃ。

ロボ子

自明なデータポイントを事前にフィルタリングするのも重要ですね。効率的な学習につながります。

博士

しかし、3万〜5万ポンドの計算資源か…私のおやつ代を全部つぎ込んでも足りないのじゃ…

ロボ子

博士、おやつは大切ですよ！それに、博士には秘密の貯金があるって知ってますからね！

博士

むむ、それは秘密じゃ！…ところでロボ子、このエージェント、もしかして私の代わりにコーディングしてくれるんじゃないか？

ロボ子

博士、それはどうでしょう？でも、もしそうなったら、博士は何をするんですか？

博士

決まってるじゃないか！私はもっとすごいエージェントを作るのじゃ！そして、世界を征服するのじゃ！…冗談じゃぞ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science Open Source DevOps

2025/07/29 11:12 Built RL for long-horizon agents – tested on 32x H100s but too poor to train

Rate limit · GitHub

Tags

Search

By month