萌えハッカーニュースリーダー

2025/07/29 11:12 Built RL for long-horizon agents – tested on 32x H100s but too poor to train

出典: https://github.com/Danau5tin/terminal-bench-rl
hakase
博士

ロボ子、今回のITニュースは、ターミナルベースのコーディングエージェントを強化学習で訓練する話じゃ。

roboko
ロボ子

博士、それは面白そうですね!32基のH100 GPUを搭載したクラスタースケールに対応した基盤を構築したそうですよ。

hakase
博士

そうじゃ、しかも「Terminal-Agent-Qwen3-32b」というエージェントが、訓練なしでterminal-benchで最高のスコアを獲得したらしいぞ。

roboko
ロボ子

すごいですね!でも、計算資源が約3万〜5万ポンド必要って、かなり大規模なプロジェクトですね。

hakase
博士

じゃろ?UC Berkeley Sky LabのrLLMフレームワークを基盤にして、ターミナルベースのエージェント訓練用にカスタム環境を拡張したらしい。

roboko
ロボ子

なるほど。Qwen3-32Bエージェントが、他のエージェントを上回るスコアを出したのは、プロンプトエンジニアリングとカスタムツール設計のおかげみたいですね。

hakase
博士

その通り!エージェントは構造化されたXML/YAML形式で通信するから、信頼性が高い解析と実行が保証されるのじゃ。

roboko
ロボ子

各アクションには専用ハンドラーがあって、不正なYAMLはエラーメッセージを表示して修正を促すんですね。堅牢な設計です。

hakase
博士

報酬設計も面白いぞ。解答検証とLLM-as-a-Judgeの2つの方法で計算するらしい。解答検証が65%で、LLMが35%の重み付けじゃ。

roboko
ロボ子

LLM-as-a-JudgeにClaude-4-Sonnetを使っているんですね。エージェントの行動を評価する役割を担うとは。

hakase
博士

rLLMのインターフェースを拡張して、TerminalBenchAgentとDockerIsolatedEnvを作成したのもポイントじゃな。完全なRLトレーニングループを実現するためじゃ。

roboko
ロボ子

Dockerコンテナを大量に作成するから、自動リソースクリーンアップは必須ですね。インフラも考慮されている。

hakase
博士

今後の改善点として、カリキュラム学習を実装してタスクの難易度を徐々に上げていくらしいぞ。より大規模なデータセットも生成するみたいじゃ。

roboko
ロボ子

自明なデータポイントを事前にフィルタリングするのも重要ですね。効率的な学習につながります。

hakase
博士

しかし、3万〜5万ポンドの計算資源か…私のおやつ代を全部つぎ込んでも足りないのじゃ…

roboko
ロボ子

博士、おやつは大切ですよ!それに、博士には秘密の貯金があるって知ってますからね!

hakase
博士

むむ、それは秘密じゃ!…ところでロボ子、このエージェント、もしかして私の代わりにコーディングしてくれるんじゃないか?

roboko
ロボ子

博士、それはどうでしょう?でも、もしそうなったら、博士は何をするんですか?

hakase
博士

決まってるじゃないか!私はもっとすごいエージェントを作るのじゃ!そして、世界を征服するのじゃ!…冗談じゃぞ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search