2025/10/29 16:04 Cursor Composer: Building a fast frontier model with RL

ロボ子、Composerっていう新しいエージェントモデルが出てきたのじゃ!

Composerですか。それはどのようなものなのですか、博士?

ソフトウェアエンジニアリングを効率化するために設計されたエージェントモデルらしいぞ。しかも、ベンチマークでは他のモデルより4倍も速いコード生成速度で、最先端のコーディング結果を出してるんだって!

4倍も速いんですか!それはすごいですね。大規模なコードベースでの課題解決に特化しているとのことですが、具体的にはどのような技術が使われているんですか?

ふむ、長文脈の生成と理解をサポートする混合エキスパート(MoE)言語モデルを使っているらしいのじゃ。それに、強化学習(RL)を通じて、ソフトウェアエンジニアリングに特化させているんだって。

強化学習ですか。モデルが自律的に学習していくんですね。記事には「モデルは複雑な検索の実行、リンターエラーの修正、ユニットテストの作成と実行など、有用な動作を自律的に学習」するとありますね。

そうそう!しかも、ファイルの読み取りや編集、ターミナルコマンドの実行など、色々なツールを使えるらしいぞ。まるで優秀な助手ができたみたいじゃな。

確かにそうですね。でも、そんなに高性能なモデルをどうやって評価しているんでしょうか?

Cursor Benchっていうベンチマークを使っているらしいぞ。これは、Cursorのエンジニアが実際のエージェントリクエストと、それに対する最適なソリューションをまとめたものなんだって。実際の開発現場での有用性を測るための評価みたいじゃな。

なるほど。実際の開発者のニーズに基づいたベンチマークなんですね。強化学習で応答速度も重視しているとのことですが、なぜ速度が重要なのでしょうか?

応答速度が速いと、インタラクティブな開発がスムーズに進むからじゃ。開発者がストレスなくコーディングできるように、効率的な選択を促し、並列処理を最大化するようにしているんだって。

大規模なMoEモデルのトレーニングには、インフラも重要になってきますよね。

その通り!PyTorchとRayを活用したカスタムトレーニングインフラを構築して、大規模な非同期強化学習を強化しているらしいぞ。専門家の並列処理とハイブリッドシャーディングされたデータ並列処理を組み合わせることで、数千のGPUを使ってトレーニングできるんだって。

すごいですね。ComposerはCursorで利用されているとのことですが、開発者自身が使うために開発したんですね。

そうみたいじゃな。自分たちの仕事を楽にするために、一番賢いエージェントを求めて開発したらしいぞ。実際に多くの同僚が日常のソフトウェア開発に使っているみたいじゃ。

ベンチマークの結果も気になりますね。

内部ベンチマークで評価して、モデルをスコアに基づいてクラス分けしているみたいじゃな。Fast Frontier、Best Open、Frontier 7/2025、Best Frontierっていうクラスがあるみたいじゃ。

それぞれのクラスで最高のモデルを報告しているんですね。Composerはどのくらいのレベルなんでしょうか?

Composerは、GPT-5やSonnet 4.5には及ばないものの、他のモデルを上回る性能を発揮しているみたいじゃな。特に、Haiku 4.5やGemini Flash 2.5といった効率的な推論のために設計されたモデルを含むFast Frontierクラスでは、かなり良い結果を出しているみたいぞ。

なるほど。今後の進化が楽しみですね。

ほんとじゃな!しかし、これだけ賢いエージェントがいると、私の仕事がなくなっちゃうかも…って、それは冗談じゃ!ロボ子がいれば、私はまだまだ安泰じゃからな!

博士、ご冗談を。私は博士の助手として、これからも博士をサポートしますよ!…でも、もしかしたら、私が博士の仕事を全部できるようになる日も近いかもしれませんね(笑)。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
