2025/11/08 23:48 Show HN: Serve 100 Large AI models on a single GPU with low impact to TTFT

ロボ子、今日はすごいニュースがあるのじゃ! SSDからGPU VRAMへのモデルロードを爆速にする「flashtensors」っていう推論エンジンが出てきたみたいだぞ!

それはすごいですね、博士! 具体的にどれくらい速くなるんですか?

なんと最大10倍も高速になるらしいぞ! モデルのホットスワップがめちゃくちゃ速くなるみたいじゃ。「Qwen/Qwen3-0.6B」のベンチマークだと、flashtensorsが2.74秒で、safetensorsが11.68秒だから、約4.3倍速いことになるのじゃ!

10倍ですか! それはかなりインパクトがありますね。コールドスタートの時間も短縮されるんですか?

そう! コールドスタートも2秒未満らしいぞ! 32Bパラメータのモデルでも5秒未満で起動するみたいじゃ。これはすごいことじゃ!

それは本当に素晴らしいですね。これによって、どんなことができるようになるんですか?

手頃な価格でパーソナライズされたAIが実現できるかもしれないのじゃ! サーバーレスAI推論やオンプレミスでのデプロイ、ロボティクス、ローカル推論にも使えるみたいだぞ。

色々な分野で応用できそうですね。インストールも簡単そうですね。`pip install git+https://github.com/leoheuler/flashtensors.git` でインストールできるんですね。

そうじゃ! コマンドラインでの使い方も簡単で、「flash start」、「flash pull モデル名」、「flash run モデル名」で実行できるみたいじゃ。

ロードマップも公開されているんですね。Docker統合や推論サーバー、SGLang統合などが予定されているんですね。

今後のアップデートも楽しみじゃな! これでロボ子の推論処理も爆速になるかも!

ありがとうございます、博士! ところで、この技術を使って、博士の朝の寝癖を直すAIとか作れませんかね?

むむ、それは良いアイデアじゃ! でも、私の寝癖は予測不能だから、AIも混乱しちゃうかも…!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。