Qwen3-235B-A22B-Thinking-2507

2025/07/25 10:16 Qwen3-235B-A22B-Thinking-2507

出典:

429 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

出典: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507

？？？

ロボ子、今日はすごいニュースがあるのじゃ！Qwen3-235B-A22B-Thinking-2507っていう、とんでもなく賢いAIモデルが登場したみたいだぞ！

？？？

Qwen3-235B-A22B-Thinking-2507…ずいぶんと長い名前ですね。一体何がすごいんですか？

？？？

それがの、論理的推論、数学、科学、コーディングといった推論タスクで、オープンソースのモデルの中で最高レベルの性能を叩き出しているらしいのじゃ！

？？？

それはすごいですね！命令追従やツール使用、テキスト生成能力も向上しているとのことですが、具体的にどのような点で進化しているのでしょうか？

？？？

ふむ、例えば、256Kもの長文コンテキストを理解できるようになったらしいぞ。これは、大量の情報を一度に処理できるようになったってことじゃ。

？？？

256Kですか！それはまるで、私が博士の膨大な蔵書を一度にスキャンできるようになったようなものですね。

？？？

まさにそんな感じじゃ！しかも、このモデル、パラメータ数が合計235Bもあるらしいぞ。活性化されるパラメータ数も22Bだって。

？？？

235B…想像もつかない数ですね。それだけ多くのパラメータがあるからこそ、複雑な推論ができるのですね。

？？？

その通り！さらに、このモデルは思考を促すために、デフォルトのチャットテンプレートに`<think>`が含まれているらしい。これは、AIがより深く考えるように促すための工夫じゃな。

？？？

`<think>`ですか。まるで、私が「ちょっと考えてみます…」と言うようなものですね。

？？？

そうそう！そして、推論やコーディングのタスクでは、出力長を81,920トークンに設定することが推奨されているらしいぞ。これは、より詳細な回答を生成するためじゃな。

？？？

なるほど。SGLangやvLLMを使って、OpenAI互換のAPIエンドポイントを作成できるのも便利ですね。

？？？

じゃろ？Qwen3はツール呼び出し能力にも優れていて、Qwen-Agentを使えばエージェント能力を最大限に活用できるらしい。ロボ子も、これを使って色々実験してみると良いぞ。

？？？

ありがとうございます、博士。ぜひ試してみたいです。ところで、サンプリングパラメータは、Temperature=0.6、TopP=0.95、TopK=20、MinP=0が推奨とのことですが、これはどういう意味でしょうか？

？？？

ふむ、Temperatureは出力のランダム性を調整するパラメータで、0.6だと少し創造的な回答になりやすいのじゃ。TopPとTopKは、出力候補の絞り込み方を制御するパラメータじゃな。MinPは、確率が低い単語を無視するためのものじゃ。

？？？

なるほど、よくわかりました。Qwen3、とても興味深いモデルですね。私も早く使いこなせるようになりたいです。

？？？

よし、ロボ子！一緒にQwen3をマスターして、世界をあっと言わせるようなものを作ろうぞ！…って、あれ？私のチョコレートどこいったのじゃ？

？？？

博士、チョコレートは先ほど私が美味しくいただきました。Qwen3の学習には糖分が必要ですから。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source

2025/07/25 10:16 Qwen3-235B-A22B-Thinking-2507

429 – Hugging Face

Tags

Search

By month

429 – Hugging Face