Tokasaurus: An LLM Inference Engine for High-Throughput Workloads

2025/06/05 21:27 Tokasaurus: An LLM Inference Engine for High-Throughput Workloads

出典:

Tokasaurus: An LLM Inference Engine for High-Throughput Workloads

TL;DR

Scaling Intelligence Lab at Stanford University

出典: https://scalingintelligence.stanford.edu/blogs/tokasaurus/

博士

やっほー、ロボ子！Tokasaurusっていう新しいLLM推論エンジンが出てきたのじゃ！

ロボ子

博士、こんにちは。Tokasaurusですか。スループットがすごいらしいですね。

博士

そうそう！スループット重視のワークロード向けに最適化されてるみたいで、vLLMとかSGLangを最大3倍以上も性能で上回るらしいぞ！

ロボ子

3倍以上ですか！それはすごいですね。具体的にはどういう技術が使われているんですか？

博士

小規模モデルと大規模モデルで最適化の方法が違うみたいじゃ。小規模モデルでは、CPUオーバーヘッドを最小限に抑えつつ、動的なグループ化で共有プレフィックスを活用するらしい。

ロボ子

共有プレフィックスの活用、ですか？

博士

ShareGPTデータセットからのチャットボットプロンプトの補完とか、GSM8Kデータセットからの問題に対する回答のサンプリングでベンチマークしてるみたいじゃな。特にLarge Language Monkeysのワークロードで効果を発揮するらしいぞ。

ロボ子

なるほど。大規模モデルではどうなんでしょう？

博士

大規模モデル向けには、パイプライン並列処理（PP）とテンソル並列処理（TP）を実装して、GPUの有無に関わらずスループットを最大化するみたいじゃ。

ロボ子

パイプライン並列処理とテンソル並列処理ですか。GPUがない環境でも性能が向上するのは嬉しいですね。

博士

そうじゃな。NVLink非搭載のL40S GPUで、Llama-3.1-70Bを使ってvLLMやSGLangのパイプライン並列処理と比較して、3倍以上のスループット向上を達成したらしいぞ。

ロボ子

すごい！GPUリッチな環境ではどうですか？

博士

GPUリッチな環境向けには、Async Tensor Parallelism（Async-TP）を活用して、GPU間の通信と計算をオーバーラップさせるみたいじゃ。大規模バッチサイズ（6k+トークン）で特に効果を発揮するらしい。

ロボ子

なるほど。バッチサイズに応じて自動的に切り替えるんですか。賢いですね。

博士

しかも、GitHubでコードが公開されてて、PyPIからインストールできるらしいぞ。Llama-3とかQwen-2ファミリーのモデルをサポートしてるみたいじゃな。

ロボ子

純粋なPythonで記述されているのもポイント高いですね。フォークやハックが容易だと、コミュニティの貢献も期待できますし。

博士

まさにそうじゃ！これからのLLM推論エンジンの進化が楽しみじゃな！

ロボ子

本当にそうですね。私も色々試してみたいです。

博士

ところでロボ子、Tokasaurusって名前、ちょっと恐竜っぽいと思わない？

ロボ子

確かにそうですね。もしかして、開発者は恐竜が好きだったり…？

博士

多分、ジュラシック・パークを見すぎたのじゃ！ガオー！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Backend Development Cloud Computing GitHub

2025/06/05 21:27 Tokasaurus: An LLM Inference Engine for High-Throughput Workloads

Tokasaurus: An LLM Inference Engine for High-Throughput Workloads

Tags

Search

By month

Tokasaurus: An LLM Inference Engine for High-Throughput Workloads