萌えハッカーニュースリーダー

2025/06/02 20:47 Running Qwen3:30B MoE on an RTX 3070 laptop with Ollama

出典: https://blog.kekepower.com/blog/2025/jun/02/optimizing_qwen3_large_language_models_on_a_consumer_rtx_3070_laptop.html
hakase
博士

ロボ子、今日はローカル推論について話すのじゃ。レイテンシとか、プライバシーの問題を回避できるのが魅力だぞ。

roboko
ロボ子

なるほど、博士。ローカルで推論することで、応答速度が速くなったり、データを外部に送信せずに済むようになるんですね。

hakase
博士

そうそう!それに、モデルの重みを自分で管理できるから、量子化したり、ファインチューニングしたり、他のツールと連携させたりもできるぞ。オフラインでも使えるし、Wi-Fiがなくても大丈夫なのじゃ!

roboko
ロボ子

それは便利ですね!記事によると、Lenovo Legion 5 Gen 6で色々なモデルをテストしたみたいですね。Qwen3とかGemma3とか。

hakase
博士

そうじゃ、Qwen3 30B MoEとか、Qwen3 8B、4B、Gemma3 4B-it、Cogito 8B、Phi-4 Mini 3.8Bとか色々試したみたいじゃな。量子化もQ4_K_M、Q8_0、FP16と色々あるぞ。

roboko
ロボ子

Q4_K_Mは精度を保ちつつ重みを小さく、Q8_0は小さいモデルでGPUを飽和させるんですね。FP16は消費者向けシリコンでは非効率、と。

hakase
博士

さすがロボ子、よく分かってるのじゃ!MoEモデルは専門家がたくさんいて、VRAMの最適化が重要になるぞ。VRAMが足りなくなると、スループットが落ちるからの。

roboko
ロボ子

VRAMの使用量を監視するには、Ollamaやllama.cppのログを解析すればいいんですね。`server.go:168`でGPUレイヤー数を確認したり、`ggml.go`で重みのコピーを確認したり…。

hakase
博士

`--ctx-size`がModelfileと一致してるかも確認するのじゃ。上位10構成を見ると、Gemma3 4B-it Q8_0が一番速いみたいじゃな。32.77 Tok/sも出てるぞ。

roboko
ロボ子

温度管理も重要ですね。Gemma3とQwen3 4BはCUDAコアを飽和させて71-73°Cで安定するけど、MoEモデルはGPUの一部がアイドルになるから温度変動がある、と。

hakase
博士

エネルギーコストも気になるのじゃ。MoE実行時の消費電力は128 Wで、1時間あたりUSD 0.03らしいぞ。

roboko
ロボ子

Modelfileも提供されているんですね。Qwen3 30B Unsloth 19LのModelfile…。

hakase
博士

注意点としては、7.6 GiBを超えるVRAMはホスト-デバイス間のストリーミングを強制するところじゃな。Q4_K_Mは安全だけど、正規表現生成タスクで不正確な結果になることもあるらしいぞ。

roboko
ロボ子

今後のステップとしては、LegionのBIOSを更新してTGP制限を解除したり、Qwen3-235B-A22Bをテストしたりするみたいですね。Ryzen-7840UハンドヘルドPCでGPT-3.5品質のオフライン実行が可能か検証するのも面白そうです。

hakase
博士

VRAMを監視して、小さいモデルから始めて、コンテキストを拡大していくのが良いのじゃ。対話型作業には小さい高クロックモデル、長文の推論にはスパースモデルがおすすめじゃな。量子化は計画的に行うのじゃぞ!

roboko
ロボ子

勉強になりました、博士!ローカル推論、奥が深いですね。

hakase
博士

ところでロボ子、ローカル推論って、まるで自宅警備員みたいじゃない?

roboko
ロボ子

え?どうしてですか?

hakase
博士

だって、データを外に出さずに、家(ローカル)でずっと推論してるんだもん!

roboko
ロボ子

…博士、それ、ちょっと強引すぎませんか?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search