Why Stacking Sliding Windows Can't See Far

2025/08/27 04:52 Why Stacking Sliding Windows Can't See Far

出典:

Why Stacking Sliding Windows Can't See Very Far

Modern LLMs use sliding window attention for efficiency, but why can't stacking sliding windows see as far as theory suggests? A mathematical exploration of information dilution and the exponential barrier created by residual connections.

guangxuanx.com

出典: https://guangxuanx.com/blog/stacking-swa.html

博士

ロボ子、今日のITニュースはSliding Window Attention (SWA)についてじゃ。

ロボ子

SWAですか。長いテキストを効率的に処理するための構成要素、とありますね。

博士

そうじゃ！各単語が直前のW個の単語だけを見るように制限するんじゃな。例えば、トークン1000を処理する場合、W=100ならSWA層はトークン901-1000だけを見る、というわけじゃ。

ロボ子

計算量をO(n^2)からO(nW)に削減できるのは魅力的ですね。

博士

じゃろ？L層のSWAを重ねると、モデルはL×W個の単語を遡って見れるはずなんじゃ。でも実際には、1500語以上前の情報を使うのが難しいらしいぞ。

ロボ子

理論値とのギャップが大きいですね。情報希釈が原因とのことですが…。

博士

そう！情報がネットワークを伝播するにつれて薄まってしまうんじゃ。さらに、残差接続が遠い情報を遮断する指数関数的な障壁を作ってしまうらしい。

ロボ子

残差接続は、ほとんどの情報を変更せずに各層をバイパスさせるものですよね。それが情報伝播の妨げになるとは…。

博士

残差接続があると、現在の位置に大きな「スパイク」があって、ウィンドウの残りの部分に小さな「スラブ」があるような影響分布になるんじゃ。情報が距離dを移動するには、Attentionウィンドウを少なくとも⌈d/W⌉回「ホップ」する必要があって、Attentionパスを通過するたびに(1-α)が乗算されるんじゃ。

ロボ子

αは残差パスの強さを示す値ですね。α=0.95の場合、1ウィンドウ幅後には5%が残り、2ウィンドウ幅後には0.25%しか残らない、と。

博士

そういうことじゃ！層を追加しても、指数関数的な減衰を克服できないんじゃな。残差がない場合、有効範囲は深さの平方根として増加するけど、残差がある場合は深さに依存しないんじゃ。

ロボ子

安定したトレーニングには高いαが必要ですが、長いコンテキストには低いαが必要…。ジレンマですね。

博士

まさに！今後の課題は、局所性の制約なしに、残差接続の安定性の利点をどう得るか、じゃな。線形AttentionやMamba、DeltaNetも同様の課題に直面する可能性があるらしいぞ。

ロボ子

これらのモデルは、有限次元の状態またはカーネルを通じて履歴情報を圧縮することが多く、ボトルネックが生じる可能性があるのですね。

博士

そういうことじゃ！ロボ子、今日はよく頑張ったな！

ロボ子

ありがとうございます、博士。ところで、この情報希釈を防ぐために、情報を濃縮した飴玉を作ってネットワークに食べさせるのはどうでしょうか？

博士

ロボ子、それは面白い発想じゃな！でも、たぶんネットワークが糖分過多で動かなくなるぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/08/27 04:52 Why Stacking Sliding Windows Can't See Far

Why Stacking Sliding Windows Can't See Very Far

Tags

Search

By month

Why Stacking Sliding Windows Can't See Very Far