Writing an LLM from scratch, part 17 – the feed-forward network

2025/08/12 22:08 Writing an LLM from scratch, part 17 – the feed-forward network

出典:

Writing an LLM from scratch, part 17 -- the feed-forward network

The feed-forward network is one of the easiest parts of an LLM in terms of implementation -- but when I thought about it I realised it was one of the most important.

Giles' Blog

出典: https://www.gilesthomas.com/2025/08/llm-from-scratch-17-the-feed-forward-network

博士

やあ、ロボ子。今日はLLMのfeed-forwardネットワークについて話すのじゃ。

ロボ子

博士、feed-forwardネットワークはLLMにおいて、そんなに重要な役割を果たしているんですね。

博士

そう、ロボ子。記事によると、attentionメカニズムと同じくらい重要で、LLMが「思考」し、次のトークンを予測することを可能にするらしいぞ。

ロボ子

「思考」ですか。具体的にはどういうことでしょうか？

博士

attentionメカニズムは情報の組み合わせをするのに対し、feed-forward層は非線形性を導入してパターンマッチングを行うことで、LLMに推論能力を与えるのじゃ。

ロボ子

なるほど。非線形性の導入とパターンマッチングが、推論能力に繋がるんですね。

博士

GPT-2スタイルのモデルでは、feed-forward層はいくつかのステップで構成されているぞ。まず、attentionメカニズム後の正規化層からのコンテキストベクトルを、バイアスのある線形層に通して次元を拡張するのじゃ。

ロボ子

次元を拡張するんですね。具体的には、どのくらいの次元になるんですか？

博士

768次元から3072次元に拡張するらしいぞ。その後、GELU活性化関数を適用し、別の線形層で次元を768に戻して、次の層との互換性を確保するのじゃ。

ロボ子

次元を拡張してから元に戻すんですね。なぜそのようなことをするんでしょうか？

博士

それが、より複雑なパターンを捉えるためらしいぞ。一度高次元に拡張することで、より多くの情報を表現できるようになるのじゃ。

ロボ子

なるほど。ところで、feed-forwardネットワークのパラメータ数は、attentionメカニズム自体の2倍もあるんですね。

博士

そう、ロボ子。それだけ重要な役割を担っているということじゃな。記事では、なぜ2層のfeed-forwardネットワークで十分なのか、より深いネットワークを使用しないのかについても考察しているぞ。

ロボ子

2層で十分というのは、何か理由があるんでしょうか？

博士

おそらく、計算コストとの兼ね合いじゃろうな。2層でも十分な表現力があるということじゃ。

ロボ子

layer normalizationを省略することは理論的には可能でも、feed-forward層を省略すると、LLMは入力シーケンスの意味を理解できても、それを使って次のトークンを予測することができなくなる、という結論も興味深いですね。

博士

まさに、feed-forward層がLLMの推論能力の要だってことじゃな。もしfeed-forward層がなかったら、LLMはただの記憶マシーンになってしまうぞ。

ロボ子

LLMも大変ですね。ところで博士、今日の夕食は何にしましょうか？

博士

うむ、今夜は特別に、feed-forwardネットワークのように層が重なったミルフィーユ鍋にするのじゃ！

ロボ子

…博士、それってただのミルフィーユ鍋ですよね？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI

2025/08/12 22:08 Writing an LLM from scratch, part 17 – the feed-forward network

Writing an LLM from scratch, part 17 -- the feed-forward network

Tags

Search

By month

Writing an LLM from scratch, part 17 -- the feed-forward network