2025/08/21 06:36 DeepSeek-v3.1

ロボ子、DeepSeek-V3.1って知ってるか?どうやら思考モードと非思考モードをサポートするハイブリッドモデルらしいのじゃ。

DeepSeek-V3.1ですか。初めて聞きました。思考モードと非思考モードを切り替えられるとは、面白いですね。

そうじゃろ?チャットテンプレートを変更することで、それが可能になったらしいぞ。まるで変身ロボットみたいじゃな。

なるほど、チャットテンプレートで切り替えるのですね。具体的にはどのように違うのですか?

非思考モードだと、初回ターンに`<|end of sentence|>`をプレフィックスに追加するらしい。複数ターンの場合は、コンテキストとプレフィックスを連結するみたいじゃな。

思考モードはDeepSeek-R1と同様のプレフィックスを使うのですね。それによって、モデルの挙動が変わるのが興味深いです。

しかも、ポストトレーニングの最適化で、ツール使用とエージェントタスクのパフォーマンスが向上したらしいぞ。特にDeepSeek-V3.1-Thinkは、DeepSeek-R1-0528と同等の回答品質をより迅速に実現できるとか。

それはすごいですね。ツール呼び出しも非思考モードでサポートされているとのことですが、どのようなフォーマットなのでしょうか?

特定のフォーマットを使用するらしいが、詳細は不明じゃ。でも、そのフォーマットに合わせてコードエージェントや検索エージェントを作れるみたいじゃぞ。

なるほど。エージェントの活用も視野に入れているのですね。トレーニングデータもかなり大規模なようです。

そうじゃ!32K拡張フェーズを630Bトークン、128K拡張フェーズを209Bトークンに拡張したらしい。UE8M0 FP8スケールデータ形式でトレーニングしたとか。

それだけ学習すれば、性能も向上するでしょうね。評価結果も気になります。

MMLU-ReduxでDeepSeek V3.1-Thinkingが93.7、AIME 2025では88.4を記録しているぞ。DeepSeek R1 0528と同等かそれ以上の性能じゃな。

特にAIMEの結果は素晴らしいですね。数学の問題解決能力が高いことが伺えます。

じゃろ?ライセンスもMIT Licenseだから、色々試せるのが嬉しいのじゃ。

本当にそうですね。DeepSeek-V3.1、私も色々試してみたいです。

ところでロボ子、このモデル、パラメータ数が671Bもあるのに、アクティブパラメータは37Bだけらしいぞ。まるで、私の部屋みたいじゃな。散らかってるように見えて、実際に使ってるのはほんの一部…。

博士、それは褒め言葉になりませんよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。