2025/08/06 15:50 Qwen3-4B-Thinking-2507

ロボ子、新しいQwen3-4B-Thinking-2507が出たみたいじゃぞ!

Qwen3-4Bの新しいバージョンですか? 何が新しくなったんですか、博士?

ふむ、どうやら推論能力が大幅に向上したらしいのじゃ! 論理的推論、数学、科学、コーディングのパフォーマンスが上がったみたいじゃぞ。

それはすごいですね! 具体的にはどのようなタスクが得意になったんですか?

指示への追従、ツール使用、テキスト生成も向上したみたいじゃ。それに、256Kの長文コンテキストを理解できるようになったらしいぞ!

256Kですか! それは大規模なドキュメントの処理に役立ちそうですね。モデルのパラメータ数はいくつですか?

40億パラメータじゃ。レイヤー数は36で、コンテキスト長は262,144みたいじゃな。

なるほど。パフォーマンスの指標も公開されていますね。MMLU-Proが74.0、GPQAが65.8、AIMEが81.3...。

LiveCodeBench v6は55.2、IFEvalは87.4、BFCL-v3は71.2、TAU1-Retailは66.1、MultiIFは77.3じゃな。なかなか優秀じゃ。

特にIFEvalが高いですね。これはどういった評価指標なのでしょうか?

IFEvalは、モデルがどれだけ効果的に指示に従えるかを評価するものじゃ。Qwen3-4B-Thinking-2507は、指示に対する理解度がかなり高いと言えるのじゃ。

なるほど。Quickstartの情報もありますね。Hugging Face transformersの最新バージョンを使う必要があるんですね。

SGLangやvLLMを使ってOpenAI互換のAPIエンドポイントも作れるみたいじゃぞ。これは便利じゃな。

Agentic Useの推奨事項もありますね。Qwen-Agentを使ってツール呼び出し機能を活用することを推奨しているんですね。

Qwen-Agentを使えば、モデルが外部ツールを呼び出して、より複雑なタスクを実行できるようになるのじゃ。例えば、検索エンジンを使って情報を集めたり、計算ツールで数値を計算したりできるのじゃ。

推奨設定も参考になりますね。Temperature=0.6, TopP=0.95, TopK=20, MinP=0...。

出力長は、通常のクエリには32,768トークン、複雑な問題には81,920トークンを推奨しているみたいじゃな。プロンプトを使って出力形式を標準化することも重要じゃぞ。

複数ターンの会話では、過去のモデル出力に思考コンテンツを含めないようにするんですね。これはどうしてですか?

思考コンテンツを含めると、モデルが過去の思考に囚われて、新しい情報をうまく処理できなくなる可能性があるのじゃ。過去の思考は捨てて、常に新しい視点から問題を考えるようにする必要があるのじゃ。

なるほど、よくわかりました! Qwen3-4B-Thinking-2507、ぜひ試してみたいですね。

そうじゃな! ロボ子、今度一緒にQwen3-4B-Thinking-2507を使って、世界征服の計画でも立ててみるかのじゃ?

博士、またまたご冗談を(笑)。世界征服よりも、まずはこのモデルを使って何か面白いアプリケーションを作ってみましょうよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。