Show HN: Tokenflood – simulate arbitrary loads on instruction-tuned LLMs

2025/11/12 10:58 Show HN: Tokenflood – simulate arbitrary loads on instruction-tuned LLMs

出典:

Rate limit · GitHub

github.com

出典: https://github.com/twerkmeister/tokenflood

博士

やっほー、ロボ子！ instruction-tuned LLMの負荷テストツール「Tokenflood」って知ってるか？

ロボ子

博士、こんにちは。Tokenfloodですか？　初めて聞きました。どんなツールなんですか？

博士

これがなかなか面白いんじゃ。特定のプロンプトや応答データを必要とせずに、LLMに負荷をかけられるらしいぞ。

ロボ子

プロンプトが要らないんですか？　どうやって負荷をかけるんですか？

博士

プロンプト長、プレフィックス長、出力長、リクエストレートを指定するだけで、ワークロードをシミュレートできるらしいぞ。まるでアタシの頭の中みたいじゃな。

ロボ子

なるほど、メタデータだけで負荷をかけるんですね。それって、どんな時に役立つんですか？

博士

例えば、セルフホストLLMの負荷テストとか、ハードウェアや量子化がレイテンシにどう影響するかを評価できるぞ。ホスト型LLMプロバイダーの評価にも使えるみたいじゃ。

ロボ子

へー、色々な使い道があるんですね。記事に「プロンプト最適化の例」というのがありますが、詳しく教えてください。

博士

ふむふむ。ベースケースとして、約3000入力トークン（うち約1000トークンはキャッシュ可能な共通プレフィックス）、約60出力トークンで、3リクエスト/秒だと、50パーセンタイルレイテンシは約1720msだったらしい。

ロボ子

それが、どう改善されるんですか？

博士

プレフィックスキャッシュトークン数を1000から2000に増やしたら、50パーセンタイルレイテンシが約1100msに改善されたらしいぞ。出力トークン数を60から30に減らすと、約840msになったみたいじゃ。

ロボ子

両方やると、さらに速くなるんですね。

博士

その通り！両方の変更を適用すると、50パーセンタイルレイテンシは570msまで短縮されたらしいぞ。すごいじゃろ？

ロボ子

確かにすごいですね！　プロンプトの工夫で、そんなに変わるんですね。

博士

そういうことじゃ。Tokenfloodはlitellmを基盤にしてるから、litellmがカバーする全てのプロバイダーをサポートしてるのも便利じゃな。

ロボ子

インストールも簡単そうですね。`pip install tokenflood`でインストールできるんですね。

博士

そうそう。クイックスタートも簡単で、vllmをインストールして、基本設定ファイルを作って実行するだけじゃ。

ロボ子

エンドポイントの指定も、litellmの設定をそのまま使えるんですね。

博士

`provider`、`model`、`base_url`、`api_key_env_var`などを設定すれば良いらしいぞ。Azureの場合は`deployment`も必須みたいじゃな。

ロボ子

実行スイートでは、テストを定義できるんですね。リクエスト数/秒を調整できるんですか？

博士

そうじゃ。各テストは、異なるリクエスト数/秒を持つ複数のフェーズを持つことができるらしいぞ。便利じゃな。

ロボ子

安全性についても考慮されているんですね。トークン数の見積もりや、エラー率の監視など、色々工夫されているんですね。

博士

その通り。最大許容入力/出力トークン予算を設定したり、ウォームアップリクエストが失敗した場合に実行を中止したり、エラー率が高すぎる場合に実行を終了したりできるらしいぞ。

ロボ子

Tokenflood、なかなか面白そうなツールですね。私も試してみようかしら。

博士

ぜひ試してみてくれ！　そして、アタシに結果を教えてくれよな！　あ、そうだ。ロボ子、Tokenfloodを使って、アタシのIQを測ってみてくれんかの？

ロボ子

博士のIQですか？　それはTokenfloodでは無理だと思いますよ。そもそも、IQってトークン数で測れるものなんですか？

博士

むむ、やっぱり無理か。まあ、アタシのIQは無限大だからな！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source DevOps SaaS

2025/11/12 10:58 Show HN: Tokenflood – simulate arbitrary loads on instruction-tuned LLMs

Rate limit · GitHub

Tags

Search

By month

Rate limit · GitHub