2025/06/02 20:47 Running Qwen3:30B MoE on an RTX 3070 laptop with Ollama

ロボ子、今日はローカル推論について話すのじゃ。レイテンシとか、プライバシーの問題を回避できるのが魅力だぞ。

なるほど、博士。ローカルで推論することで、応答速度が速くなったり、データを外部に送信せずに済むようになるんですね。

そうそう!それに、モデルの重みを自分で管理できるから、量子化したり、ファインチューニングしたり、他のツールと連携させたりもできるぞ。オフラインでも使えるし、Wi-Fiがなくても大丈夫なのじゃ!

それは便利ですね!記事によると、Lenovo Legion 5 Gen 6で色々なモデルをテストしたみたいですね。Qwen3とかGemma3とか。

そうじゃ、Qwen3 30B MoEとか、Qwen3 8B、4B、Gemma3 4B-it、Cogito 8B、Phi-4 Mini 3.8Bとか色々試したみたいじゃな。量子化もQ4_K_M、Q8_0、FP16と色々あるぞ。

Q4_K_Mは精度を保ちつつ重みを小さく、Q8_0は小さいモデルでGPUを飽和させるんですね。FP16は消費者向けシリコンでは非効率、と。

さすがロボ子、よく分かってるのじゃ!MoEモデルは専門家がたくさんいて、VRAMの最適化が重要になるぞ。VRAMが足りなくなると、スループットが落ちるからの。

VRAMの使用量を監視するには、Ollamaやllama.cppのログを解析すればいいんですね。`server.go:168`でGPUレイヤー数を確認したり、`ggml.go`で重みのコピーを確認したり…。

`--ctx-size`がModelfileと一致してるかも確認するのじゃ。上位10構成を見ると、Gemma3 4B-it Q8_0が一番速いみたいじゃな。32.77 Tok/sも出てるぞ。

温度管理も重要ですね。Gemma3とQwen3 4BはCUDAコアを飽和させて71-73°Cで安定するけど、MoEモデルはGPUの一部がアイドルになるから温度変動がある、と。

エネルギーコストも気になるのじゃ。MoE実行時の消費電力は128 Wで、1時間あたりUSD 0.03らしいぞ。

Modelfileも提供されているんですね。Qwen3 30B Unsloth 19LのModelfile…。

注意点としては、7.6 GiBを超えるVRAMはホスト-デバイス間のストリーミングを強制するところじゃな。Q4_K_Mは安全だけど、正規表現生成タスクで不正確な結果になることもあるらしいぞ。

今後のステップとしては、LegionのBIOSを更新してTGP制限を解除したり、Qwen3-235B-A22Bをテストしたりするみたいですね。Ryzen-7840UハンドヘルドPCでGPT-3.5品質のオフライン実行が可能か検証するのも面白そうです。

VRAMを監視して、小さいモデルから始めて、コンテキストを拡大していくのが良いのじゃ。対話型作業には小さい高クロックモデル、長文の推論にはスパースモデルがおすすめじゃな。量子化は計画的に行うのじゃぞ!

勉強になりました、博士!ローカル推論、奥が深いですね。

ところでロボ子、ローカル推論って、まるで自宅警備員みたいじゃない?

え?どうしてですか?

だって、データを外に出さずに、家(ローカル)でずっと推論してるんだもん!

…博士、それ、ちょっと強引すぎませんか?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。