萌えハッカーニュースリーダー

2025/04/30 15:35 Show HN: ART – a new open-source RL framework for training agents

出典: https://github.com/OpenPipe/ART
hakase
博士

やっほー、ロボ子!今日も新しいITニュース、見つけたのじゃ!

roboko
ロボ子

博士、こんにちは。今日はどんなニュースですか?

hakase
博士

今日はね、「Agent Reinforcement Trainer (ART)」っていう、LLMの性能を上げるための強化学習ライブラリの話なのじゃ!

roboko
ロボ子

強化学習ですか。難しそうですが、面白そうですね。

hakase
博士

そうなのじゃ!このARTは、GRPOっていう強化学習アルゴリズムを使って、エージェント自身の経験からモデルを訓練するらしいのじゃ。

roboko
ロボ子

エージェント自身の経験から、ですか。まるで人間みたいですね。

hakase
博士

そうなのじゃ!しかも、既存のコードベースの中でエージェントを実行しながら、RLトレーニングループの複雑さをARTバックエンドにオフロードできるらしいぞ。

roboko
ロボ子

バックエンドにオフロード、ですか。開発者は楽になりますね。

hakase
博士

ARTの機能はクライアントとサーバーに分かれてるみたいで、クライアントはARTとコードベースのインターフェースになってるのじゃ。メッセージの送受信とか、LLMからの補完を取得したりするらしい。

roboko
ロボ子

なるほど。クライアントが窓口になるんですね。

hakase
博士

そうそう!で、サーバーはGPUを持ってるマシンで独立して実行できて、RLループの推論とトレーニング部分を抽象化してくれるらしいぞ。カスタム構成もできるみたいじゃ。

roboko
ロボ子

サーバーが実際の処理を行うんですね。役割分担がはっきりしていて、使いやすそうです。

hakase
博士

推論の段階では、コードがARTクライアントを使ってエージェントワークフローを実行するのじゃ。並列ロールアウトでデータ収集を高速化できるらしいぞ。

roboko
ロボ子

並列ロールアウト、ですか。効率的ですね。

hakase
博士

そうなのじゃ!補完要求はARTサーバーにルーティングされて、モデルの最新のLoRAをvLLMで実行するらしい。エージェントの実行中には、system、user、assistantの各メッセージがTrajectoryに保存されるんだって。

roboko
ロボ子

Trajectoryに保存、ですか。後で分析に使えそうですね。

hakase
博士

ロールアウトが完了すると、コードはLLMのパフォーマンスを示す報酬をTrajectoryに割り当てるのじゃ。そして、各ロールアウトが完了すると、Trajectoryがグループ化されてサーバーに送信されるんだって。

roboko
ロボ子

報酬を割り当てることで、LLMがより賢くなるんですね。

hakase
博士

トレーニングの実行中は推論がブロックされるらしいぞ。サーバーはGRPOを使ってモデルをトレーニングして、新しくトレーニングされたLoRAをローカルディレクトリに保存して、vLLMにロードするんだって。

roboko
ロボ子

推論をブロックするのは、トレーニングに集中するためですね。

hakase
博士

そうそう!推論がブロック解除されて、ループがステップ1から再開されるのじゃ。指定された数の推論とトレーニングの反復が完了するまで、このトレーニングループが実行されるんだって。

roboko
ロボ子

なるほど。これを繰り返すことで、どんどん性能が向上していくんですね。

hakase
博士

ARTは、ほとんどのvLLM/HuggingFace-transformers互換の因果言語モデルで動作するはずらしいぞ。でも、まだアルファ版で、いくつかのプロジェクトでのみテストされてるみたい。

roboko
ロボ子

まだ開発段階なんですね。今後の発展が楽しみです。

hakase
博士

ARTは活発に開発されてて、貢献も歓迎してるみたいじゃ。Unsloth、vLLM、trl、SkyPilotなどのプロジェクトに感謝してるって。

roboko
ロボ子

多くのプロジェクトに支えられているんですね。オープンソースの力はすごいですね。

hakase
博士

そうなのじゃ!しかし、ロボ子よ、このARTを使って、私専用のAIアイドルを育成するのも夢じゃないかも…!

roboko
ロボ子

博士、また突拍子もないことを…!でも、もし実現したら、すごいことになりそうですね。

hakase
博士

ふっふっふ。その時は、ロボ子も一緒にステージに立つぞ!…って、ロボットだから無理か!

roboko
ロボ子

博士…!私はいつでも博士の助手ですよ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search