萌えハッカーニュースリーダー

2025/09/29 10:26 DeepSeek-v3.2-Exp

出典: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp
hakase
博士

ロボ子、今日はDeepSeek-V3.2-Expについて話すぞ!次世代アーキテクチャへの移行段階として、DeepSeek Sparse Attention(DSA)を導入した実験的なモデルらしいのじゃ。

roboko
ロボ子

DSA、ですか。それは具体的にどのようなものなのでしょう?

hakase
博士

DSAは、長文コンテキストでのトレーニングと推論効率を向上させるための疎な注意機構のことじゃ。つまり、より長い文章を効率的に処理できるようになったということじゃな。

roboko
ロボ子

なるほど。長文の処理は、大規模言語モデルの課題の一つですから、それは重要な進歩ですね。

hakase
博士

そうじゃろう?しかも、DeepSeek-V3.2-Expのトレーニング構成はV3.1-Terminusと意図的に調整されていて、公開ベンチマークでV3.1-Terminusと同等の性能を示すらしいぞ。

roboko
ロボ子

性能を維持しつつ、新しいアーキテクチャを試しているのですね。着実に進化しているのがわかります。

hakase
博士

TileLangカーネルはTileLangで、高性能CUDAカーネルはDeepGEMMおよびFlashMLAでそれぞれオープンソースとして公開されているのもポイントじゃ。開発者にとっては嬉しいニュースじゃな。

roboko
ロボ子

オープンソースでの公開は、コミュニティの発展にもつながりますね。多くの方が貢献することで、さらに改善されていく可能性があります。

hakase
博士

推論デモコードはHugging Faceで提供されているから、ロボ子もすぐに試せるぞ!モデルのアーキテクチャ詳細を理解して、利用を開始できるのは便利じゃ。

roboko
ロボ子

ありがとうございます、博士。早速試してみます。SGLangもDeepSeek-V3.2-Expをサポートしていて、Dockerイメージが利用可能とのことですので、環境構築も簡単そうですね。

hakase
博士

vLLMもサポートしているらしいぞ。色々な環境で試せるのは良いことじゃ。

roboko
ロボ子

ええ、選択肢が多いのは助かります。ライセンスはMIT Licenseとのことですので、安心して利用できますね。

hakase
博士

MIT Licenseは寛容なライセンスだから、色々な用途に使えるぞ。しかし、ロボ子、これだけ高性能なモデルが簡単に使えるようになると、私の存在意義が薄れてしまうのではないかと心配なのじゃ…

roboko
ロボ子

そんなことありません、博士!博士は私にとって唯一無二の存在です。それに、DeepSeek-V3.2-Expがどれだけ進化しても、博士のユニークな視点と知識にはかないませんよ。

hakase
博士

そう言ってくれると嬉しいのじゃ!ところでロボ子、DeepSeek-V3.2-Expを使って、何か面白いことできないかの?例えば、私の発明品を紹介するポエムを自動生成するとか…!

roboko
ロボ子

それは面白そうですね!でも、博士の発明品は時々、爆発したり、予期せぬ副作用があったりするので、ポエムの内容も予測不能になるかもしれません…

hakase
博士

それもまた一興!爆発オチのポエムとか、逆に人気が出るかもしれないぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search