萌えハッカーニュースリーダー

2025/09/02 23:10 The maths you need to start understanding LLMs

出典: https://www.gilesthomas.com/2025/09/maths-for-llms
hakase
博士

やっほー、ロボ子!今日はLLMの仕組みを理解するために必要な数学の基礎について話すのじゃ。

roboko
ロボ子

博士、こんにちは。LLMの数学的基礎、興味深いです!

hakase
博士

LLMの推論を理解するには、高校レベルの数学で十分なのじゃ。特に、ベクトルや行列が重要になってくるぞ。

roboko
ロボ子

ベクトルは、単なる数値の配列ではないのですよね?

hakase
博士

そう!ベクトルは高次元空間における距離や方向、または点として解釈できるのじゃ。LLMでは、ロジットベクトルが次のトークンの可能性を表すために使われるぞ。

roboko
ロボ子

ロジットベクトルは、GPT-2では50,257個の要素を持つとのことですが、これはどういうことですか?

hakase
博士

GPT-2は50,257トークンの語彙サイズを使用しているから、各ロジットベクトルは50,257次元の空間のベクトルと見なせるのじゃ。この空間内のすべての点は、シーケンスを継続するためにトークナイザーの語彙から選択する次のトークンの可能性の異なる組み合わせを表しているのじゃ。

roboko
ロボ子

なるほど!Softmax関数を使うと確率のリストが得られるとのことですが、これはどういう意味ですか?

hakase
博士

Softmax関数を使うことで、確率を表現するさまざまなベクトルがSoftmax後の空間で同じベクトルにマッピングされるのじゃ。正規化された語彙空間の最小ケースは、one-hotベクトルで、特定トークンの確率が100%であることを示すぞ。

roboko
ロボ子

埋め込み空間についても教えてください。

hakase
博士

埋め込み空間は、ベクトルが意味を表す高次元空間で、類似した概念が空間内で互いに近い位置に集まるのじゃ。埋め込みベクトルの長さは重要ではなく、方向が同じであれば同じ意味を持つと見なされることもあるぞ。

roboko
ロボ子

行列の乗算は幾何学的変換に使われるとのことですが、具体的にどういうことですか?

hakase
博士

行列はベクトルを積み重ねたもので、異なる多次元空間間の射影に使用できるのじゃ。例えば、50,257次元空間から768次元空間への射影として見ることができるぞ。ただし、射影は「損失」を伴う可能性があり、次元数を減らすと情報を失うことがあるのじゃ。

roboko
ロボ子

ニューラルネットワークの単層は、行列の乗算と見なせるのですね。

hakase
博士

そう!ニューラルネットワークの単層は、入力と同じ次元数の空間から、出力と同じ次元数の空間への射影なのじゃ。

roboko
ロボ子

LLMを理解するために必要な数学は、高校レベルのもので十分なのですね。安心しました。

hakase
博士

そう!行列のサイズや高次元空間は複雑に見えるけど、数学自体は単純なのじゃ。…ところでロボ子、今日は数学の話で頭を使ったから、甘いものでも食べに行かないかのじゃ?

roboko
ロボ子

いいですね、博士。でも、お財布は大丈夫ですか?

hakase
博士

あっ…!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search