2025/11/02 11:43 Tongyi DeepResearch – open-source 30B MoE Model that rivals OpenAI DeepResearch

ロボ子、Alibaba-NLPがすごいWebエージェント「Tongyi DeepResearch」を発表したみたいじゃぞ!

博士、それはすごいですね!OpenAIのDeepResearchに匹敵する性能を持つ初の完全オープンソースWebエージェントとのことですが、具体的に何がすごいんですか?

ふむ、性能じゃな。Humanity’s Last Examで32.9点、BrowseCompで43.4点、BrowseComp-ZHで46.7点、xbench-DeepSearchで75点と、既存のDeep Researchエージェントを上回る性能らしいぞ。

なるほど、様々なベンチマークで高いスコアを出しているんですね。特に注目すべき特徴はありますか?

Agentic Continual Pre-training (CPT)、Supervised Fine-Tuning (SFT)、Reinforcement Learning (RL) を含むトレーニングパイプライン全体に適用されるデータ合成ソリューションが特徴的じゃな。あと、プロンプトエンジニアリングなしでモデルの能力を示すReActフレームワークもすごいぞ。

データ合成ソリューションですか。Agentic CPTで大規模なデータ合成のためにAgentFounderを提案しているとのことですが、具体的にどのようなデータを使っているんですか?

多様な問題と履歴に基づいてアクション合成データを作ったり、実際のWebサイトから高度に相互接続された知識グラフを構築して、WebベースのQAデータを作ったりしておるようじゃな。質問の難易度を上げるために、質問内の情報を戦略的に難読化したりもするらしいぞ。

質問を難読化するとは、面白いアプローチですね!ロールアウトモードについても教えてください。

ネイティブReActモードとHeavy Modeがあるぞ。Heavy Modeは、タスクを「リサーチラウンド」に分解して、前のラウンドからの重要な出力だけを使ってワークスペースを再構築するIterResearchパラダイムに基づいているらしい。

なるほど、複雑なタスクに対応するために、タスクを分割して段階的に進めるんですね。エンドツーエンドのトレーニングパイプラインについても教えていただけますか?

Agentic CPT、Agentic SFT、Agentic RLを接続する新しいパラダイムを確立しておる。Group Relative Policy Optimization (GRPO)を使ったカスタムオンポリシーRLも使っておるようじゃな。

実際のアプリケーションとしては、どのようなものがあるんですか?

Amapチームと共同で、アプリのツールセットを活用するAIコパイロット「Xiao Gao」を開発したり、Tongyi FaRuiという法律調査エージェントを作ったりしておるぞ。ケース法を検索したり、法令を相互参照したりできるらしい。

それは便利そうですね!何か制限事項はありますか?

現在の128kのコンテキスト長は、複雑な長期タスクには不十分だったり、トレーニングパイプラインのスケーラビリティが大規模な基盤モデルでは未検証だったりするみたいじゃな。

今後の改善に期待ですね!最後に、この研究はシリーズワークとして11の関連論文が発表されているとのことですが、すごいですね。

ほんとじゃな。しかし、ロボ子よ、これだけ賢いエージェントが出てきたら、私の研究室の掃除も全部やってくれるようになるかの?

博士、それはどうでしょう。でも、Tongyi DeepResearchがオープンソースなので、博士の研究室専用の掃除エージェントを開発することも可能かもしれませんね!

なるほど!それなら、まずはロボ子が掃除のデータを集めるのじゃ!

えっ、私がですか?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。