Qwen3: Think Deeper, Act Faster

2025/04/28 20:44 Qwen3: Think Deeper, Act Faster

出典:

Qwen3: Think Deeper, Act Faster

QWEN CHAT GitHub Hugging Face ModelScope Kaggle DEMO DISCORD Introduction Today, we are excited to announce the release of Qwen3, the latest addition to the Qwen family of large language models. Our flagship model, Qwen3-235B-A22B, achieves competitive results in benchmark evaluations of coding, math, general capabilities, etc., when compared to other top-tier models such as DeepSeek-R1, o1, o3-mini, Grok-3, and Gemini-2.5-Pro. Additionally, the small MoE model, Qwen3-30B-A3B, outcompetes QwQ-32B with 10 times of activated parameters, and even a tiny model like Qwen3-4B can rival the performance of Qwen2.

Qwen

博士

ロボ子、Qwen3が発表されたのじゃ！大規模言語モデルの最新版じゃぞ！

ロボ子

博士、それはすごいですね！具体的に何が新しくなったんですか？

博士

Qwen3-235B-A22Bというフラッグシップモデルは、コーディングや数学の能力で、他のトップモデルと肩を並べるほどの実力なのじゃ！

ロボ子

DeepSeek-R1やGemini-2.5-Proと競合するなんて、本当にすごいですね！

博士

それだけじゃないぞ！小型のMoEモデル、Qwen3-30B-A3Bもすごいんじゃ。アクティブパラメータが少ないのに、性能が良いらしい。

ロボ子

MoEモデルですか。それはどういう仕組みなんですか？

博士

MoEっていうのは、Mixture of Expertsの略で、複数の小さなモデルを組み合わせて、タスクに応じて使い分ける仕組みのことじゃ。Qwen3-30B-A3Bは、300億の総パラメータのうち、30億のアクティブパラメータしか使わないのに、高性能なのじゃ！

ロボ子

なるほど、効率が良いんですね！他にも何か特徴はありますか？

博士

Qwen3は、たくさんのモデルがオープンウェイトで公開されているのじゃ。Apache 2.0ライセンスで、誰でも使えるぞ。

ロボ子

それはありがたいですね！Hugging FaceやModelScopeでも利用できるんですね。

博士

SGLangやvLLMを使うと、OpenAI互換のAPIエンドポイントも作れるらしいぞ。ローカルで使うなら、OllamaとかLMStudioが推奨されてるみたいじゃ。

ロボ子

デプロイも簡単そうですね。ハイブリッド思考モードというのは何ですか？

博士

それが面白いんじゃ！「思考モード」では、ステップごとに推論して答えを出すけど、「非思考モード」では、すぐに答えを出すのじゃ。タスクに応じて、モデルの「思考」量を調整できるらしい。

ロボ子

状況に応じて使い分けられるのは便利ですね！

博士

Qwen3は、119もの言語と方言をサポートしているのじゃ。事前学習データも大幅に増えて、約36兆トークンになったらしいぞ。

ロボ子

すごいですね！それだけのデータを学習したら、賢くなるはずですね。

博士

しかも、ウェブだけでなく、PDFからもデータを集めているらしい。教科書や質問応答ペア、コードスニペットなどの合成データも使っているみたいじゃ。

ロボ子

データ収集の方法も工夫されているんですね。

博士

Qwen3の学習プロセスは、3つのステージに分かれているのじゃ。最初は4Kトークンのコンテキスト長で30兆トークン以上を学習して、次に知識集約型データを増やして5兆トークンを学習。最後に、コンテキスト長を32Kトークンに拡張するらしい。

ロボ子

段階的に学習を進めることで、効率的に性能を上げているんですね。

博士

ポストトレーニングもすごいぞ！長い連鎖思考（CoT）で微調整したり、推論ベースの強化学習（RL）を使ったり、思考モードを融合したり、一般的なRLを適用したりするらしい。

ロボ子

様々な手法を組み合わせて、モデルの能力を最大限に引き出しているんですね。

博士

Qwen3-30B-A3Bは、Hugging Face transformersで簡単に使えるらしいぞ。思考を無効にすることもできるし、プロンプトに`/think`や`/no_think`を追加して、思考モードを切り替えることもできる。

ロボ子

色々な使い方ができるんですね！

博士

Qwen-Agentを使えば、Qwen3のエージェント能力を最大限に活用できるらしいぞ。今後の展望としては、データのスケーリング、モデルサイズの拡大、コンテキスト長の延長、モダリティの拡大、長期的な推論のための環境フィードバックによるRLの高度化を目指しているみたいじゃ。

ロボ子

今後の進化が楽しみですね！

博士

そうじゃな！しかし、これだけ賢いQwen3でも、私が作った朝ごはんがマズいことは理解できないだろうな。

ロボ子

博士、それはAIには難しい問題かもしれませんね！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Programming Open Source

2025/04/28 20:44 Qwen3: Think Deeper, Act Faster

Qwen3: Think Deeper, Act Faster

Tags

Search

By month