Running Qwen3:30B MoE on an RTX 3070 laptop with Ollama

2025/06/02 20:47 Running Qwen3:30B MoE on an RTX 3070 laptop with Ollama

出典:

Optimizing Qwen3 Large Language Models on a Consumer RTX 3070 Laptop

Running large language models locally is no longer a research novelty, it is a workflow that anyone with a mid-tier gaming laptop can adopt. Over the past month I benchmarked, tweaked, and occasionally broke a Lenovo Legion 5 fitted with an RTX 3070 8 GB GPU, searching for the fastest stable way to run the Qwen-family of large language models as well as a handful of worthy challengers. The result is a repeatable playbook that balances throughput, context window, and thermal sanity, proving that meaningful AI workloads fit comfortably on hardware you can carry to a cafe.

AI Muse by kekePower

出典: https://blog.kekepower.com/blog/2025/jun/02/optimizing_qwen3_large_language_models_on_a_consumer_rtx_3070_laptop.html

博士

ロボ子、今日はローカル推論について話すのじゃ。レイテンシとか、プライバシーの問題を回避できるのが魅力だぞ。

ロボ子

なるほど、博士。ローカルで推論することで、応答速度が速くなったり、データを外部に送信せずに済むようになるんですね。

博士

そうそう！それに、モデルの重みを自分で管理できるから、量子化したり、ファインチューニングしたり、他のツールと連携させたりもできるぞ。オフラインでも使えるし、Wi-Fiがなくても大丈夫なのじゃ！

ロボ子

それは便利ですね！記事によると、Lenovo Legion 5 Gen 6で色々なモデルをテストしたみたいですね。Qwen3とかGemma3とか。

博士

そうじゃ、Qwen3 30B MoEとか、Qwen3 8B、4B、Gemma3 4B-it、Cogito 8B、Phi-4 Mini 3.8Bとか色々試したみたいじゃな。量子化もQ4_K_M、Q8_0、FP16と色々あるぞ。

ロボ子

Q4_K_Mは精度を保ちつつ重みを小さく、Q8_0は小さいモデルでGPUを飽和させるんですね。FP16は消費者向けシリコンでは非効率、と。

博士

さすがロボ子、よく分かってるのじゃ！MoEモデルは専門家がたくさんいて、VRAMの最適化が重要になるぞ。VRAMが足りなくなると、スループットが落ちるからの。

ロボ子

VRAMの使用量を監視するには、Ollamaやllama.cppのログを解析すればいいんですね。`server.go:168`でGPUレイヤー数を確認したり、`ggml.go`で重みのコピーを確認したり…。

博士

`--ctx-size`がModelfileと一致してるかも確認するのじゃ。上位10構成を見ると、Gemma3 4B-it Q8_0が一番速いみたいじゃな。32.77 Tok/sも出てるぞ。

ロボ子

温度管理も重要ですね。Gemma3とQwen3 4BはCUDAコアを飽和させて71-73°Cで安定するけど、MoEモデルはGPUの一部がアイドルになるから温度変動がある、と。

博士

エネルギーコストも気になるのじゃ。MoE実行時の消費電力は128 Wで、1時間あたりUSD 0.03らしいぞ。

ロボ子

Modelfileも提供されているんですね。Qwen3 30B Unsloth 19LのModelfile…。

博士

注意点としては、7.6 GiBを超えるVRAMはホスト-デバイス間のストリーミングを強制するところじゃな。Q4_K_Mは安全だけど、正規表現生成タスクで不正確な結果になることもあるらしいぞ。

ロボ子

今後のステップとしては、LegionのBIOSを更新してTGP制限を解除したり、Qwen3-235B-A22Bをテストしたりするみたいですね。Ryzen-7840UハンドヘルドPCでGPT-3.5品質のオフライン実行が可能か検証するのも面白そうです。

博士

VRAMを監視して、小さいモデルから始めて、コンテキストを拡大していくのが良いのじゃ。対話型作業には小さい高クロックモデル、長文の推論にはスパースモデルがおすすめじゃな。量子化は計画的に行うのじゃぞ！

ロボ子

勉強になりました、博士！ローカル推論、奥が深いですね。

博士

ところでロボ子、ローカル推論って、まるで自宅警備員みたいじゃない？

ロボ子

え？どうしてですか？

博士

だって、データを外に出さずに、家（ローカル）でずっと推論してるんだもん！

ロボ子

…博士、それ、ちょっと強引すぎませんか？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Programming Data Science Open Source Cloud Computing Gadgets

2025/06/02 20:47 Running Qwen3:30B MoE on an RTX 3070 laptop with Ollama

Optimizing Qwen3 Large Language Models on a Consumer RTX 3070 Laptop

Tags

Search

By month

Optimizing Qwen3 Large Language Models on a Consumer RTX 3070 Laptop