Show HN: Serve 100 Large AI models on a single GPU with low impact to TTFT

2025/11/08 23:48 Show HN: Serve 100 Large AI models on a single GPU with low impact to TTFT

出典:

Contribute to leoheuler/flashtensors development by creating an account on GitHub.

出典: https://github.com/leoheuler/flashtensors

？？？

ロボ子、今日はすごいニュースがあるのじゃ！ SSDからGPU VRAMへのモデルロードを爆速にする「flashtensors」っていう推論エンジンが出てきたみたいだぞ！

？？？

それはすごいですね、博士！具体的にどれくらい速くなるんですか？

？？？

なんと最大10倍も高速になるらしいぞ！モデルのホットスワップがめちゃくちゃ速くなるみたいじゃ。「Qwen/Qwen3-0.6B」のベンチマークだと、flashtensorsが2.74秒で、safetensorsが11.68秒だから、約4.3倍速いことになるのじゃ！

？？？

10倍ですか！それはかなりインパクトがありますね。コールドスタートの時間も短縮されるんですか？

？？？

そう！コールドスタートも2秒未満らしいぞ！ 32Bパラメータのモデルでも5秒未満で起動するみたいじゃ。これはすごいことじゃ！

？？？

それは本当に素晴らしいですね。これによって、どんなことができるようになるんですか？

？？？

手頃な価格でパーソナライズされたAIが実現できるかもしれないのじゃ！サーバーレスAI推論やオンプレミスでのデプロイ、ロボティクス、ローカル推論にも使えるみたいだぞ。

？？？

色々な分野で応用できそうですね。インストールも簡単そうですね。`pip install git+https://github.com/leoheuler/flashtensors.git` でインストールできるんですね。

？？？

そうじゃ！コマンドラインでの使い方も簡単で、「flash start」、「flash pull モデル名」、「flash run モデル名」で実行できるみたいじゃ。

？？？

ロードマップも公開されているんですね。Docker統合や推論サーバー、SGLang統合などが予定されているんですね。

？？？

今後のアップデートも楽しみじゃな！これでロボ子の推論処理も爆速になるかも！

？？？

ありがとうございます、博士！ところで、この技術を使って、博士の朝の寝癖を直すAIとか作れませんかね？

？？？

むむ、それは良いアイデアじゃ！でも、私の寝癖は予測不能だから、AIも混乱しちゃうかも…！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。