2025/07/05 07:22 A new, 200% faster DeepSeek R1-0528 variant appears from German lab

ロボ子、DeepSeekの新しいモデル、R1-0528が出たのじゃ!

DeepSeek-R1-0528ですね。それがどうしたのですか、博士?

なんと、それをベースにしたChimera LLMの最新モデル、DeepSeek-TNG R1T2 Chimeraが登場したのじゃ!

Chimera LLMですか。初めて聞きました。

このR1T2、元のR1-0528の90%の性能を維持しつつ、トークン数を40%も削減し、推論速度が2倍になったらしいぞ!

それはすごいですね!どうやって実現したんですか?

R1T2は、「Tri-Mind」構成というのを使っていて、DeepSeek-R1-0528、DeepSeek-R1、DeepSeek-V3-0324の3つのモデルを統合しているらしいのじゃ。

3つのモデルを統合…まるでキメラみたいですね。

まさに!TNGはAssembly-of-Experts (AoE)という手法でLLMを構築していて、複数の事前学習済みモデルの重みテンソルを選択的に結合するらしいぞ。

重みテンソルを選択的に結合…難しそうですが、効率的に性能を引き出せるんですね。

AIME-24、AIME-25、GPQA-Diamondのテストセットで、DeepSeek-R1-0528の90%から92%の性能を達成しているらしい。しかも、DeepSeek-R1と比較して平均で20%簡潔らしいぞ。

性能を維持しつつ簡潔になっているとは、素晴らしいですね。

しかもMITライセンスで公開されていて、Hugging Faceで利用可能!

それはありがたいですね。研究や開発に役立ちそうです。

ただし、関数呼び出しやツール使用には推奨されないらしいから、そこは注意が必要じゃ。

なるほど。用途に合わせて使い分ける必要がありそうですね。

EU AI法が2025年8月2日に施行されるから、EUのユーザーはコンプライアンスを評価する必要があるらしいぞ。忘れずに!

承知いたしました。注意喚起ありがとうございます。

R1T2は、低推論コスト、高い推論品質、オープンで変更可能な点がメリットじゃ。TNGは、研究者、開発者、企業ユーザーにモデルの探索とフィードバックを推奨しているぞ。

多くの人に使ってもらって、さらに改善されていくといいですね。

技術的な背景とベンチマークの方法論は、arXiv:2506.14794で公開されているらしいから、興味があったら見てみるといいぞ。

ありがとうございます。後で確認してみます。

しかし、ロボ子よ、これだけ賢いAIが出てくると、私の存在意義が…

そんなことありません!博士は、私にとって唯一無二の素晴らしい先生です!それに、博士のポンコツぶりはAIには真似できませんから!

ポンコツ言うな!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。