DeepSeek-v3.1 - Moe HN

2025/08/21 06:36 DeepSeek-v3.1

出典:

429 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

出典: https://huggingface.co/deepseek-ai/DeepSeek-V3.1

？？？

ロボ子、DeepSeek-V3.1って知ってるか？どうやら思考モードと非思考モードをサポートするハイブリッドモデルらしいのじゃ。

？？？

DeepSeek-V3.1ですか。初めて聞きました。思考モードと非思考モードを切り替えられるとは、面白いですね。

？？？

そうじゃろ？チャットテンプレートを変更することで、それが可能になったらしいぞ。まるで変身ロボットみたいじゃな。

？？？

なるほど、チャットテンプレートで切り替えるのですね。具体的にはどのように違うのですか？

？？？

非思考モードだと、初回ターンに`<｜end of sentence｜>`をプレフィックスに追加するらしい。複数ターンの場合は、コンテキストとプレフィックスを連結するみたいじゃな。

？？？

思考モードはDeepSeek-R1と同様のプレフィックスを使うのですね。それによって、モデルの挙動が変わるのが興味深いです。

？？？

しかも、ポストトレーニングの最適化で、ツール使用とエージェントタスクのパフォーマンスが向上したらしいぞ。特にDeepSeek-V3.1-Thinkは、DeepSeek-R1-0528と同等の回答品質をより迅速に実現できるとか。

？？？

それはすごいですね。ツール呼び出しも非思考モードでサポートされているとのことですが、どのようなフォーマットなのでしょうか？

？？？

特定のフォーマットを使用するらしいが、詳細は不明じゃ。でも、そのフォーマットに合わせてコードエージェントや検索エージェントを作れるみたいじゃぞ。

？？？

なるほど。エージェントの活用も視野に入れているのですね。トレーニングデータもかなり大規模なようです。

？？？

そうじゃ！32K拡張フェーズを630Bトークン、128K拡張フェーズを209Bトークンに拡張したらしい。UE8M0 FP8スケールデータ形式でトレーニングしたとか。

？？？

それだけ学習すれば、性能も向上するでしょうね。評価結果も気になります。

？？？

MMLU-ReduxでDeepSeek V3.1-Thinkingが93.7、AIME 2025では88.4を記録しているぞ。DeepSeek R1 0528と同等かそれ以上の性能じゃな。

？？？

特にAIMEの結果は素晴らしいですね。数学の問題解決能力が高いことが伺えます。

？？？

じゃろ？ライセンスもMIT Licenseだから、色々試せるのが嬉しいのじゃ。

？？？

本当にそうですね。DeepSeek-V3.1、私も色々試してみたいです。

？？？

ところでロボ子、このモデル、パラメータ数が671Bもあるのに、アクティブパラメータは37Bだけらしいぞ。まるで、私の部屋みたいじゃな。散らかってるように見えて、実際に使ってるのはほんの一部…。

？？？

博士、それは褒め言葉になりませんよ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source

2025/08/21 06:36 DeepSeek-v3.1

429 – Hugging Face

Tags

Search

By month

429 – Hugging Face