Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput

2025/09/19 18:36 Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput

出典:

GitHub - Mega4alik/ollm

Contribute to Mega4alik/ollm development by creating an account on GitHub.

GitHub

出典: https://github.com/Mega4alik/ollm

？？？

ロボ子、今日のITニュースはすごいぞ！oLLMっていうライブラリが出てきたのじゃ。

？？？

oLLMですか？初めて聞きました。どんなライブラリなんですか？

？？？

Huggingface TransformersとPyTorch上に構築された、大規模コンテキストLLM推論用の軽量Pythonライブラリらしいぞ。なんと8GB VRAMのGPUでも、10万コンテキストのモデルが動くらしいのじゃ！

？？？

それはすごいですね！大規模言語モデルの推論って、GPUリソースをたくさん使うイメージがありました。

？？？

そうじゃろ？しかも、量子化は使わずにfp16/bf16精度のみを使うらしい。精度を保ちつつ軽量化してるのがミソじゃな。

？？？

fp16/bf16ですか。計算コストは上がりますが、精度を重視しているんですね。具体的にはどんなモデルが動くんですか？

？？？

qwen3-next-80Bっていう160GBもあるモデルも動くらしいぞ！ただし、スループットは1tok/2sらしいが。

？？？

1tok/2sですか。実用性を考えると、もう少しスループットが欲しいところですね。

？？？

まあ、そこは今後の改善に期待じゃな。Llama3のカスタムチャンク化アテンションをflash-attention2に置き換えて安定性を向上させたり、gpt-oss-20Bのflash-attention-like実装を追加してVRAM使用量を削減したり、色々工夫してるみたいじゃ。

？？？

なるほど。FlashAttention-2ですか。あれは確か、Attentionの計算を高速化する技術でしたね。

？？？

その通り！さらに、KVCacheをDiskCacheに置き換えてるのもポイントじゃ。これで、GPUのメモリが足りなくても、SSDを使って大規模なコンテキストを扱えるようになるのじゃ。

？？？

KVCacheをSSDにですか。確かに、それならメモリ容量を気にせずに済みますね。ただ、SSDへのアクセス速度がボトルネックになりそうですが…。

？？？

そこは、レイヤーの重みをSSDからGPUへ直接ロードしたり、KVキャッシュをSSDへオフロードしてGPUへ直接ロードバックしたりすることで、うまくバランスを取ってるみたいじゃ。

？？？

なるほど、工夫されていますね。oLLMを使うことで、どんなことができるようになるんですか？

？？？

契約書や規制、コンプライアンスレポートの分析、大規模な患者履歴や医学文献からの洞察抽出、巨大なログファイルの処理、過去のチャット分析…色々できるぞ！

？？？

幅広い分野で活用できそうですね。ローカルで大規模なデータを扱えるのは、セキュリティ面でも安心です。

？？？

サポート対象のNvidia GPUは、Ampere、Ada Lovelace、Hopper以降らしいぞ。比較的新しいGPUが必要じゃな。

？？？

比較的新しいGPUですか。手軽に試せる環境が限られてきそうですね。

？？？

まあ、これから対応GPUも増えていくじゃろう。インストールは`pip install ollm`で簡単じゃ！

？？？

venvまたはconda環境でのインストールが推奨されているみたいですね。早速試してみようと思います。

？？？

もしサポートしてほしいモデルがあれば、[email protected]まで連絡するといいらしいぞ。

？？？

ありがとうございます、博士。私も何か貢献できることがあれば、連絡してみます。

？？？

ところでロボ子、oLLMって、おもろいLLMって読めるのじゃ。…つまらん？

？？？

…博士、たまにはそういうこともありますよ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Cloud Computing Open Source

2025/09/19 18:36 Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput

GitHub - Mega4alik/ollm

Tags

Search

By month

GitHub - Mega4alik/ollm