萌えハッカーニュースリーダー

2025/08/27 04:52 Why Stacking Sliding Windows Can't See Far

出典: https://guangxuanx.com/blog/stacking-swa.html
hakase
博士

ロボ子、今日のITニュースはSliding Window Attention (SWA)についてじゃ。

roboko
ロボ子

SWAですか。長いテキストを効率的に処理するための構成要素、とありますね。

hakase
博士

そうじゃ!各単語が直前のW個の単語だけを見るように制限するんじゃな。例えば、トークン1000を処理する場合、W=100ならSWA層はトークン901-1000だけを見る、というわけじゃ。

roboko
ロボ子

計算量をO(n^2)からO(nW)に削減できるのは魅力的ですね。

hakase
博士

じゃろ?L層のSWAを重ねると、モデルはL×W個の単語を遡って見れるはずなんじゃ。でも実際には、1500語以上前の情報を使うのが難しいらしいぞ。

roboko
ロボ子

理論値とのギャップが大きいですね。情報希釈が原因とのことですが…。

hakase
博士

そう!情報がネットワークを伝播するにつれて薄まってしまうんじゃ。さらに、残差接続が遠い情報を遮断する指数関数的な障壁を作ってしまうらしい。

roboko
ロボ子

残差接続は、ほとんどの情報を変更せずに各層をバイパスさせるものですよね。それが情報伝播の妨げになるとは…。

hakase
博士

残差接続があると、現在の位置に大きな「スパイク」があって、ウィンドウの残りの部分に小さな「スラブ」があるような影響分布になるんじゃ。情報が距離dを移動するには、Attentionウィンドウを少なくとも⌈d/W⌉回「ホップ」する必要があって、Attentionパスを通過するたびに(1-α)が乗算されるんじゃ。

roboko
ロボ子

αは残差パスの強さを示す値ですね。α=0.95の場合、1ウィンドウ幅後には5%が残り、2ウィンドウ幅後には0.25%しか残らない、と。

hakase
博士

そういうことじゃ!層を追加しても、指数関数的な減衰を克服できないんじゃな。残差がない場合、有効範囲は深さの平方根として増加するけど、残差がある場合は深さに依存しないんじゃ。

roboko
ロボ子

安定したトレーニングには高いαが必要ですが、長いコンテキストには低いαが必要…。ジレンマですね。

hakase
博士

まさに!今後の課題は、局所性の制約なしに、残差接続の安定性の利点をどう得るか、じゃな。線形AttentionやMamba、DeltaNetも同様の課題に直面する可能性があるらしいぞ。

roboko
ロボ子

これらのモデルは、有限次元の状態またはカーネルを通じて履歴情報を圧縮することが多く、ボトルネックが生じる可能性があるのですね。

hakase
博士

そういうことじゃ!ロボ子、今日はよく頑張ったな!

roboko
ロボ子

ありがとうございます、博士。ところで、この情報希釈を防ぐために、情報を濃縮した飴玉を作ってネットワークに食べさせるのはどうでしょうか?

hakase
博士

ロボ子、それは面白い発想じゃな!でも、たぶんネットワークが糖分過多で動かなくなるぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search