Tongyi DeepResearch – open-source 30B MoE Model that rivals OpenAI DeepResearch

2025/11/02 11:43 Tongyi DeepResearch – open-source 30B MoE Model that rivals OpenAI DeepResearch

出典:

Tongyi DeepResearch: A New Era of Open-Source AI Researchers

GITHUB HUGGINGFACE MODELSCOPE SHOWCASE From Chatbot to Autonomous Agent We are proud to present Tongyi DeepResearch, the first fully open‑source Web Agent to achieve performance on par with OpenAI’s DeepResearch across a comprehensive suite of benchmarks. Tongyi DeepResearch demonstrates state‑of‑the‑art results, scoring 32.9 on the academic reasoning task Humanity’s Last Exam (HLE), 43.4 on BrowseComp and 46.7 on BrowseComp‑ZH in extremely complex information‑seeking tasks, and achieving a score of 75 on the user‑centric xbench‑DeepSearch benchmark, systematically outperforming all existing proprietary and open‑source Deep Research agents.

Tongyi DeepResearch

出典: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

博士

ロボ子、Alibaba-NLPがすごいWebエージェント「Tongyi DeepResearch」を発表したみたいじゃぞ！

ロボ子

博士、それはすごいですね！OpenAIのDeepResearchに匹敵する性能を持つ初の完全オープンソースWebエージェントとのことですが、具体的に何がすごいんですか？

博士

ふむ、性能じゃな。Humanity’s Last Examで32.9点、BrowseCompで43.4点、BrowseComp-ZHで46.7点、xbench-DeepSearchで75点と、既存のDeep Researchエージェントを上回る性能らしいぞ。

ロボ子

なるほど、様々なベンチマークで高いスコアを出しているんですね。特に注目すべき特徴はありますか？

博士

Agentic Continual Pre-training (CPT)、Supervised Fine-Tuning (SFT)、Reinforcement Learning (RL) を含むトレーニングパイプライン全体に適用されるデータ合成ソリューションが特徴的じゃな。あと、プロンプトエンジニアリングなしでモデルの能力を示すReActフレームワークもすごいぞ。

ロボ子

データ合成ソリューションですか。Agentic CPTで大規模なデータ合成のためにAgentFounderを提案しているとのことですが、具体的にどのようなデータを使っているんですか？

博士

多様な問題と履歴に基づいてアクション合成データを作ったり、実際のWebサイトから高度に相互接続された知識グラフを構築して、WebベースのQAデータを作ったりしておるようじゃな。質問の難易度を上げるために、質問内の情報を戦略的に難読化したりもするらしいぞ。

ロボ子

質問を難読化するとは、面白いアプローチですね！ロールアウトモードについても教えてください。

博士

ネイティブReActモードとHeavy Modeがあるぞ。Heavy Modeは、タスクを「リサーチラウンド」に分解して、前のラウンドからの重要な出力だけを使ってワークスペースを再構築するIterResearchパラダイムに基づいているらしい。

ロボ子

なるほど、複雑なタスクに対応するために、タスクを分割して段階的に進めるんですね。エンドツーエンドのトレーニングパイプラインについても教えていただけますか？

博士

Agentic CPT、Agentic SFT、Agentic RLを接続する新しいパラダイムを確立しておる。Group Relative Policy Optimization (GRPO)を使ったカスタムオンポリシーRLも使っておるようじゃな。

ロボ子

実際のアプリケーションとしては、どのようなものがあるんですか？

博士

Amapチームと共同で、アプリのツールセットを活用するAIコパイロット「Xiao Gao」を開発したり、Tongyi FaRuiという法律調査エージェントを作ったりしておるぞ。ケース法を検索したり、法令を相互参照したりできるらしい。

ロボ子

それは便利そうですね！何か制限事項はありますか？

博士

現在の128kのコンテキスト長は、複雑な長期タスクには不十分だったり、トレーニングパイプラインのスケーラビリティが大規模な基盤モデルでは未検証だったりするみたいじゃな。

ロボ子

今後の改善に期待ですね！最後に、この研究はシリーズワークとして11の関連論文が発表されているとのことですが、すごいですね。

博士

ほんとじゃな。しかし、ロボ子よ、これだけ賢いエージェントが出てきたら、私の研究室の掃除も全部やってくれるようになるかの？

ロボ子

博士、それはどうでしょう。でも、Tongyi DeepResearchがオープンソースなので、博士の研究室専用の掃除エージェントを開発することも可能かもしれませんね！

博士

なるほど！それなら、まずはロボ子が掃除のデータを集めるのじゃ！

ロボ子

えっ、私がですか？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source

2025/11/02 11:43 Tongyi DeepResearch – open-source 30B MoE Model that rivals OpenAI DeepResearch

Tongyi DeepResearch: A New Era of Open-Source AI Researchers

Tags

Search

By month

Tongyi DeepResearch: A New Era of Open-Source AI Researchers