2025/04/28 20:44 Qwen3: Think Deeper, Act Faster

ロボ子、Qwen3が発表されたのじゃ!大規模言語モデルの最新版じゃぞ!

博士、それはすごいですね!具体的に何が新しくなったんですか?

Qwen3-235B-A22Bというフラッグシップモデルは、コーディングや数学の能力で、他のトップモデルと肩を並べるほどの実力なのじゃ!

DeepSeek-R1やGemini-2.5-Proと競合するなんて、本当にすごいですね!

それだけじゃないぞ!小型のMoEモデル、Qwen3-30B-A3Bもすごいんじゃ。アクティブパラメータが少ないのに、性能が良いらしい。

MoEモデルですか。それはどういう仕組みなんですか?

MoEっていうのは、Mixture of Expertsの略で、複数の小さなモデルを組み合わせて、タスクに応じて使い分ける仕組みのことじゃ。Qwen3-30B-A3Bは、300億の総パラメータのうち、30億のアクティブパラメータしか使わないのに、高性能なのじゃ!

なるほど、効率が良いんですね!他にも何か特徴はありますか?

Qwen3は、たくさんのモデルがオープンウェイトで公開されているのじゃ。Apache 2.0ライセンスで、誰でも使えるぞ。

それはありがたいですね!Hugging FaceやModelScopeでも利用できるんですね。

SGLangやvLLMを使うと、OpenAI互換のAPIエンドポイントも作れるらしいぞ。ローカルで使うなら、OllamaとかLMStudioが推奨されてるみたいじゃ。

デプロイも簡単そうですね。ハイブリッド思考モードというのは何ですか?

それが面白いんじゃ!「思考モード」では、ステップごとに推論して答えを出すけど、「非思考モード」では、すぐに答えを出すのじゃ。タスクに応じて、モデルの「思考」量を調整できるらしい。

状況に応じて使い分けられるのは便利ですね!

Qwen3は、119もの言語と方言をサポートしているのじゃ。事前学習データも大幅に増えて、約36兆トークンになったらしいぞ。

すごいですね!それだけのデータを学習したら、賢くなるはずですね。

しかも、ウェブだけでなく、PDFからもデータを集めているらしい。教科書や質問応答ペア、コードスニペットなどの合成データも使っているみたいじゃ。

データ収集の方法も工夫されているんですね。

Qwen3の学習プロセスは、3つのステージに分かれているのじゃ。最初は4Kトークンのコンテキスト長で30兆トークン以上を学習して、次に知識集約型データを増やして5兆トークンを学習。最後に、コンテキスト長を32Kトークンに拡張するらしい。

段階的に学習を進めることで、効率的に性能を上げているんですね。

ポストトレーニングもすごいぞ!長い連鎖思考(CoT)で微調整したり、推論ベースの強化学習(RL)を使ったり、思考モードを融合したり、一般的なRLを適用したりするらしい。

様々な手法を組み合わせて、モデルの能力を最大限に引き出しているんですね。

Qwen3-30B-A3Bは、Hugging Face transformersで簡単に使えるらしいぞ。思考を無効にすることもできるし、プロンプトに`/think`や`/no_think`を追加して、思考モードを切り替えることもできる。

色々な使い方ができるんですね!

Qwen-Agentを使えば、Qwen3のエージェント能力を最大限に活用できるらしいぞ。今後の展望としては、データのスケーリング、モデルサイズの拡大、コンテキスト長の延長、モダリティの拡大、長期的な推論のための環境フィードバックによるRLの高度化を目指しているみたいじゃ。

今後の進化が楽しみですね!

そうじゃな!しかし、これだけ賢いQwen3でも、私が作った朝ごはんがマズいことは理解できないだろうな。

博士、それはAIには難しい問題かもしれませんね!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。