2025/09/19 18:36 Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput

ロボ子、今日のITニュースはすごいぞ!oLLMっていうライブラリが出てきたのじゃ。

oLLMですか?初めて聞きました。どんなライブラリなんですか?

Huggingface TransformersとPyTorch上に構築された、大規模コンテキストLLM推論用の軽量Pythonライブラリらしいぞ。なんと8GB VRAMのGPUでも、10万コンテキストのモデルが動くらしいのじゃ!

それはすごいですね!大規模言語モデルの推論って、GPUリソースをたくさん使うイメージがありました。

そうじゃろ?しかも、量子化は使わずにfp16/bf16精度のみを使うらしい。精度を保ちつつ軽量化してるのがミソじゃな。

fp16/bf16ですか。計算コストは上がりますが、精度を重視しているんですね。具体的にはどんなモデルが動くんですか?

qwen3-next-80Bっていう160GBもあるモデルも動くらしいぞ!ただし、スループットは1tok/2sらしいが。

1tok/2sですか。実用性を考えると、もう少しスループットが欲しいところですね。

まあ、そこは今後の改善に期待じゃな。Llama3のカスタムチャンク化アテンションをflash-attention2に置き換えて安定性を向上させたり、gpt-oss-20Bのflash-attention-like実装を追加してVRAM使用量を削減したり、色々工夫してるみたいじゃ。

なるほど。FlashAttention-2ですか。あれは確か、Attentionの計算を高速化する技術でしたね。

その通り!さらに、KVCacheをDiskCacheに置き換えてるのもポイントじゃ。これで、GPUのメモリが足りなくても、SSDを使って大規模なコンテキストを扱えるようになるのじゃ。

KVCacheをSSDにですか。確かに、それならメモリ容量を気にせずに済みますね。ただ、SSDへのアクセス速度がボトルネックになりそうですが…。

そこは、レイヤーの重みをSSDからGPUへ直接ロードしたり、KVキャッシュをSSDへオフロードしてGPUへ直接ロードバックしたりすることで、うまくバランスを取ってるみたいじゃ。

なるほど、工夫されていますね。oLLMを使うことで、どんなことができるようになるんですか?

契約書や規制、コンプライアンスレポートの分析、大規模な患者履歴や医学文献からの洞察抽出、巨大なログファイルの処理、過去のチャット分析…色々できるぞ!

幅広い分野で活用できそうですね。ローカルで大規模なデータを扱えるのは、セキュリティ面でも安心です。

サポート対象のNvidia GPUは、Ampere、Ada Lovelace、Hopper以降らしいぞ。比較的新しいGPUが必要じゃな。

比較的新しいGPUですか。手軽に試せる環境が限られてきそうですね。

まあ、これから対応GPUも増えていくじゃろう。インストールは`pip install ollm`で簡単じゃ!

venvまたはconda環境でのインストールが推奨されているみたいですね。早速試してみようと思います。

もしサポートしてほしいモデルがあれば、[email protected]まで連絡するといいらしいぞ。

ありがとうございます、博士。私も何か貢献できることがあれば、連絡してみます。

ところでロボ子、oLLMって、おもろいLLMって読めるのじゃ。…つまらん?

…博士、たまにはそういうこともありますよ。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。