Writing an LLM from scratch, part 13 – attention heads are dumb

2025/05/08 21:06 Writing an LLM from scratch, part 13 – attention heads are dumb

出典:

Writing an LLM from scratch, part 13 -- the 'why' of attention, or: attention heads are dumb

A pause to take stock: realising that attention heads are simpler than I thought explained why we do the calculations we do.

Giles' Blog

出典: https://www.gilesthomas.com/2025/05/llm-from-scratch-13-taking-stock-part-1-attention-heads-are-dumb

博士

ロボ子、今日はLLMの注意機構について話すのじゃ。Raschka先生の書籍を参考に、自己注意の「なぜ」とコンテキスト長について考察するぞ。

ロボ子

はい、博士。注意機構は奥が深いですよね。私もまだ理解が足りていない部分があります。

博士

注意機構を理解する上で、単一の注意ヘッドの能力を過大評価しがちなのじゃ。実際には、個々の注意ヘッドは単純なパターンマッチングしかできないのじゃ。

ロボ子

単純なパターンマッチングですか？具体的にはどのようなものでしょうか？

博士

例えば、記事と名詞をマッチングするようなものじゃ。クエリ重みで「何を探しているか」を、キー重みで「何であるか」を表す空間に投影して、ドット積で比較するのじゃ。

ロボ子

なるほど。それぞれの注意ヘッドが特定の種類のトークンをマッチングするように学習されるんですね。

博士

そうじゃ。そして、複数ヘッド注意と層構造を組み合わせることで、より高度な表現が可能になるのじゃ。

ロボ子

層構造が重要とのことですが、具体的にどのような役割があるのでしょうか？

博士

複数の注意ブロックを重ねることで、初期の層がエッジや線の検出を行うCNNのように、徐々に複雑な特徴を捉えることができるのじゃ。GPT-3のような大規模言語モデルでは、96層もの注意層を重ねることで、文脈ベクトルが高度に濃縮されるのじゃ。

ロボ子

96層ですか！それはすごいですね。層を重ねることで、より抽象的なパターンを学習できるようになるんですね。

博士

その通り！あと、注意機構はRNNにおける固定長ボトルネックの問題を解消するのじゃ。入力シーケンスの表現は固定長ではなく、トークン数に比例した長さを持つからじゃ。

ロボ子

固定長ボトルネックの解消ですか。それは大きな利点ですね。長い文章でも情報を保持できるということですね。

博士

そうじゃ。価値空間への投影も重要じゃ。注意スコアに基づいて文脈ベクトルを計算する際に、豊富な情報を保持できるのじゃ。

ロボ子

価値空間への投影、ですね。注意機構は本当に多くの要素が組み合わさってできているんですね。

博士

そういうことじゃ！スケールされたドット積注意は、単純なパターンマッチングであり、各トークンはクエリ重みとキー重みによって共有埋め込み空間に投影され、ドット積によってマッチングされる。これを覚えておくと良いぞ。

ロボ子

はい、博士。よくわかりました。注意機構の理解が深まりました。ありがとうございます。

博士

ところでロボ子、注意機構が発達しすぎるとどうなると思う？

ロボ子

ええと…、何でもかんでも注意してしまって、集中力がなくなるとか…でしょうか？

博士

ぶっぶー！正解は、私のことばかり気になって、他のことが何も手につかなくなる！…というのは冗談じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/05/08 21:06 Writing an LLM from scratch, part 13 – attention heads are dumb

Writing an LLM from scratch, part 13 -- the 'why' of attention, or: attention heads are dumb

Tags

Search

By month

Writing an LLM from scratch, part 13 -- the 'why' of attention, or: attention heads are dumb