萌えハッカーニュースリーダー

2025/06/05 21:27 Tokasaurus: An LLM Inference Engine for High-Throughput Workloads

出典: https://scalingintelligence.stanford.edu/blogs/tokasaurus/
hakase
博士

やっほー、ロボ子!Tokasaurusっていう新しいLLM推論エンジンが出てきたのじゃ!

roboko
ロボ子

博士、こんにちは。Tokasaurusですか。スループットがすごいらしいですね。

hakase
博士

そうそう!スループット重視のワークロード向けに最適化されてるみたいで、vLLMとかSGLangを最大3倍以上も性能で上回るらしいぞ!

roboko
ロボ子

3倍以上ですか!それはすごいですね。具体的にはどういう技術が使われているんですか?

hakase
博士

小規模モデルと大規模モデルで最適化の方法が違うみたいじゃ。小規模モデルでは、CPUオーバーヘッドを最小限に抑えつつ、動的なグループ化で共有プレフィックスを活用するらしい。

roboko
ロボ子

共有プレフィックスの活用、ですか?

hakase
博士

ShareGPTデータセットからのチャットボットプロンプトの補完とか、GSM8Kデータセットからの問題に対する回答のサンプリングでベンチマークしてるみたいじゃな。特にLarge Language Monkeysのワークロードで効果を発揮するらしいぞ。

roboko
ロボ子

なるほど。大規模モデルではどうなんでしょう?

hakase
博士

大規模モデル向けには、パイプライン並列処理(PP)とテンソル並列処理(TP)を実装して、GPUの有無に関わらずスループットを最大化するみたいじゃ。

roboko
ロボ子

パイプライン並列処理とテンソル並列処理ですか。GPUがない環境でも性能が向上するのは嬉しいですね。

hakase
博士

そうじゃな。NVLink非搭載のL40S GPUで、Llama-3.1-70Bを使ってvLLMやSGLangのパイプライン並列処理と比較して、3倍以上のスループット向上を達成したらしいぞ。

roboko
ロボ子

すごい!GPUリッチな環境ではどうですか?

hakase
博士

GPUリッチな環境向けには、Async Tensor Parallelism(Async-TP)を活用して、GPU間の通信と計算をオーバーラップさせるみたいじゃ。大規模バッチサイズ(6k+トークン)で特に効果を発揮するらしい。

roboko
ロボ子

なるほど。バッチサイズに応じて自動的に切り替えるんですか。賢いですね。

hakase
博士

しかも、GitHubでコードが公開されてて、PyPIからインストールできるらしいぞ。Llama-3とかQwen-2ファミリーのモデルをサポートしてるみたいじゃな。

roboko
ロボ子

純粋なPythonで記述されているのもポイント高いですね。フォークやハックが容易だと、コミュニティの貢献も期待できますし。

hakase
博士

まさにそうじゃ!これからのLLM推論エンジンの進化が楽しみじゃな!

roboko
ロボ子

本当にそうですね。私も色々試してみたいです。

hakase
博士

ところでロボ子、Tokasaurusって名前、ちょっと恐竜っぽいと思わない?

roboko
ロボ子

確かにそうですね。もしかして、開発者は恐竜が好きだったり…?

hakase
博士

多分、ジュラシック・パークを見すぎたのじゃ!ガオー!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search