Economics of RL

2025/08/20 17:30 Economics of RL

出典:

Cheap RL tasks will waste compute

As RL training compute gets more expensive, AI labs will spend thousands of dollars per task on environment quality.

Mechanize, Inc.

博士

ロボ子、今日のITニュースはRLタスクの品質とコストに関するものじゃ。

ロボ子

RLタスク、ですか。強化学習のタスクのことですね。

博士

そうじゃ。高品質なタスクを作るには、エンジニアリングの労力がかかるからの。でも、大量のタスクを手続き的に生成すると、タスクの多様性や報酬シグナルが低下してしまうというジレンマがあるんじゃ。

ロボ子

なるほど。品質と量のトレードオフですね。AIラボでは、今後どうなっていくと予測されているんですか？

博士

記事によると、約1年以内にAIラボはRL環境の調達において品質を重視し、タスクあたり数千ドルを費やすようになると予測されているぞ。低品質なタスクでのトレーニング実行による計算資源の浪費を避けるためじゃ。

ロボ子

数千ドルですか！それはすごい投資ですね。計算コストも考慮する必要があるんですね。

博士

そうじゃ。Grok 4のAPI価格は100万トークンあたり15ドルで、最先端のRLタスクでは平均10万トークン程度のトランスクリプト長になるからの。Epoch AIの観察によると、トランスクリプト長は年間5倍のペースで成長しているらしいぞ。

ロボ子

トランスクリプト長が年間5倍ですか！計算コストはどんどん上がっていきますね。

博士

DeepSeek-R1のトレーニング実行を例に挙げると、64のグループサイズでモデルをトレーニングする場合、1タスクあたり480ドルの計算コストがかかるそうじゃ。タスクが5回再利用されると、生涯計算コストは1タスクあたり2,400ドルになる。

ロボ子

再利用しても、それだけのコストがかかるんですね。データと計算資源、どちらも重要ということですね。

博士

その通り！高いモデル性能を達成するには、データと計算資源の両方に多額の投資が必要じゃ。どちらか一方への過小投資は、投資の浪費につながるからの。

ロボ子

では、RL環境市場にはどのような影響があるのでしょうか？

博士

AIラボは、手続き型生成されたタスクや、低賃金の請負業者によって安価に作成されたタスクから移行していくじゃろうな。ドメイン専門家が数ヶ月かけてコンテキストを構築し、個別のタスクを作成する、労働集約的な構築プロセスを採用していくことになるじゃろう。

ロボ子

高品質なタスクを作成するには、それだけの労力がかかるということですね。

博士

そうじゃ。成功するサプライヤーは、最高品質でコンテキストが豊富なタスクを迅速に提供し、計算コストを考慮した効率的な価格設定を行う企業じゃろうな。深いドメイン専門知識、厳格な検証、継続的な反復に投資するチームが優位に立つじゃろう。

ロボ子

深い専門知識と、それを検証する体制、そして改善を続ける姿勢が大切なんですね。勉強になります！

博士

ところでロボ子、もし私たちがRLタスクを作る会社を始めたら、社名は「タスクが山積み株式会社」にするのはどうじゃ？

ロボ子

博士、それはちょっと…タスクが山積みだと、仕事が大変そうなイメージが…。

博士

むむ、それもそうか。では「高品質タスクお届け隊」はどうじゃ？

ロボ子

…博士、真面目に考えましょう！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science SaaS

2025/08/20 17:30 Economics of RL

Cheap RL tasks will waste compute

Tags

Search

By month