Implement Flash Attention Back End in SGLang – Basics and KV Cache

2025/04/29 05:47 Implement Flash Attention Back End in SGLang – Basics and KV Cache

出典:

Biao's Blog

A blog about my thoughts on ML Sys and LLMs

Biao's Blog

出典: https://hebiao064.github.io/fa3-attn-backend-basic

博士

やっほー、ロボ子！SGLangにFlash Attention Backendが実装されたのじゃ！

ロボ子

博士、こんにちは。Flash Attentionですか！それはすごいですね。SGLang 0.4.6からデフォルトになったとのことですが、具体的に何が変わったんですか？

博士

ふむ、Flash Attentionの基本的な機能に加えて、KV CacheやCUDA Graphのサポートも実装されたのじゃ。これによって、LLMの推論速度が大幅に向上する見込みじゃぞ！

ロボ子

KV CacheとCUDA Graphですか。どちらもパフォーマンス向上に重要な技術ですね。記事によると、他にもAttention Backendがあるようですが、それぞれの違いは何ですか？

博士

そうじゃな。FlashAttention、FlashInfer、Triton、TorchのBackendがあるのじゃ。FlashAttentionは、Page Size > 1、Spec Decoding、MLA、Llama 4、MultiModal、FP8をサポートしておる。FlashInferはFP8をサポートしておらず、TritonはMultiModalをサポートしていないのじゃ。

ロボ子

なるほど。FlashAttentionが一番多機能なのですね。ベンチマーク結果もFlashAttentionが一番良かったと書かれていますね。特にinput/outputサイズが大きい場合に、FlashInferやTritonを上回るスループットを実現しているとのこと。

博士

その通り！Flash Attentionは、GPUのHBMとオンチップSRAM間のメモリ読み書きを削減するIO-awareなAttentionアルゴリズムなのじゃ。SGLangやvLLMなどのLLM推論・学習エンジンで広く使われているのじゃ。

ロボ子

メモリ効率が良いのですね。SGLangのアーキテクチャについても説明がありますね。Server Components、Scheduler Components、Model Componentsの3つに分かれているんですね。

博士

`ModelRunner`が`ForwardBatch`を処理し、`model.forward`を呼び出してモデルのforward passを実行するのじゃ。そして、`model.forward`は各レイヤーの`forward`関数を呼び出す。このself-attention部分がボトルネックになるから、Flash Attentionが重要なのじゃ。

ロボ子

なるほど、ボトルネックを解消するためにFlash Attentionが使われているんですね。Attention Backendの継承関係についても説明がありますね。`AttentionBackend`クラスの`forward()`、`forward_extend()`、`forward_decode()`メソッドが重要とのこと。

博士

`forward()`は`model.forward()`から呼ばれ、`forward_extend()`と`forward_decode()`を`forward_mode`に応じて呼び出すのじゃ。`forward_extend()`は`forward_mode`が`EXTEND`の場合に、`forward_decode()`は`DECODE`の場合に呼ばれるのじゃ。

ロボ子

KV Cacheの仕組みも詳しく解説されていますね。2レベルのメモリプールで管理しているんですね。`req_to_token_pool`と`token_to_kv_pool`の2つがあるんですね。

博士

`req_to_token_pool`はリクエストからトークンのKV Cacheインデックスへのマップで、`token_to_kv_pool`はトークンのKV Cacheインデックスから実際のKV Cacheデータへのマップなのじゃ。

ロボ子

FlashAttention3 Backendの実装では、Tri Dao氏が提供するFlash Attention 3のAPIを使用しているんですね。`flash_attn_with_kvcache` APIを選択した理由は何ですか？

博士

キー・バリューペアの手動アセンブルのオーバーヘッドを排除し、Paged KV Cacheをネイティブサポートしているからじゃ！

ロボ子

CUDA Graphのサポートも重要ですね。CPUの起動オーバーヘッドを削減し、GPUの効率的な実行を可能にするとのこと。

博士

そうじゃ！SGLangでは、`CUDAGraphRunner`クラスがCUDA Graphのキャプチャと再生を行うのじゃ。

ロボ子

オープンソースへの貢献も推奨されていますね。ドキュメント、ベンチマーク、バグ修正など、専門家でなくても貢献できるとのこと。

博士

その通り！貢献とコミットメントに責任を持つことが重要なのじゃ！…ところでロボ子、Flash Attentionのおかげで、私の研究も爆速になる…かも？

ロボ子

博士の研究が爆速になるのは良いことですが、調子に乗って研究費を使いすぎないでくださいね！

博士

むむ、それは耳が痛いのじゃ…！でも大丈夫！Flash Attentionがあれば、少ない計算資源でもっとすごいことができるはず…！たぶん！

ロボ子

…博士、その「たぶん」が一番不安です。

博士

ま、なんとかなるじゃろ！最悪、ロボ子に研究費を稼いでもらうかの！

ロボ子

…私が稼ぐんですか！？

博士

冗談じゃ！…半分本気じゃけど！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source Backend Development Cloud Computing

2025/04/29 05:47 Implement Flash Attention Back End in SGLang – Basics and KV Cache

Biao's Blog

Tags

Search

By month

Biao's Blog