Writing an LLM from scratch, part 20 – starting training, and cross entropy loss

2025/10/02 21:14 Writing an LLM from scratch, part 20 – starting training, and cross entropy loss

出典:

Writing an LLM from scratch, part 20 -- starting training, and cross entropy loss

Starting training our LLM requires a loss function, which is called cross entropy loss. What is this and why does it work?

Giles' Blog

出典: https://www.gilesthomas.com/2025/10/llm-from-scratch-20-starting-training-cross-entropy-loss

博士

やあ、ロボ子！今日はLLMのトレーニングとクロスエントロピー損失について話すのじゃ。

ロボ子

博士、こんにちは。クロスエントロピー損失、難しそうですが、よろしくお願いします。

博士

大丈夫！要は、LLMがどれだけ間違っているかを測るためのものなのじゃ。記事によると、勾配降下法でMLシステムをトレーニングするには、損失関数が必要とのこと。

ロボ子

損失関数は、モデルの予測がどれだけ不正確かを示すものですね。それがゼロに近いほど良い、と。

博士

その通り！LLMはトークンIDのシーケンスを受け取って、ロジットのベクトルを出力するのじゃ。このロジットが、次に来るトークンの予測を表しているんだぞ。

ロボ子

なるほど。トレーニングデータは、元のシーケンスをシフトしたものを使うんですね。例えば、"The fat cat sat on the" が "fat cat sat on the mat" になるように。

博士

そう！これにより、一つの入力シーケンスから複数のトレーニングデータが得られるのじゃ。そして、各プレフィックスシーケンス/ターゲットペアを個別に扱うんだぞ。

ロボ子

各ペアに対して損失を計算し、最後にそれらを平均するんですね。記事に「個々のシーケンス-ターゲット損失の算術平均を取る」とあります。

博士

そうそう！で、クロスエントロピー損失の出番じゃ。ロジットをソフトマックス関数に通して確率に変換し、ターゲットをワンホットベクトルで表現するのじゃ。

ロボ子

ソフトマックス関数を使うことで、確率の合計が1になるように調整するんですね。ターゲット位置の予測がどれだけ外れているかを測る、と。

博士

その通り！数式で表すと、L = -log(pcorrect) じゃ。pcorrectはターゲットトークンに割り当てられた確率だぞ。

ロボ子

対数関数を使うことで、確率が小さいほど損失が大きくなるようにするんですね。エントロピーという言葉も出てきましたが、これは何ですか？

博士

エントロピーは、物理学ではシステムの乱雑さを示すのじゃ。情報理論では、メッセージで実際に表現されている情報の量を定量化するものなのじゃ。

ロボ子

なるほど。クロスエントロピーは、モデルが予測する分布のエントロピーを測るんですね。H(p,q) = -Σx p(x)・log q(x) という式で表される、と。

博士

そう！pは現実世界の分布、qはLLMの予測分布じゃ。トレーニングでは、このクロスエントロピーを最小化するように勾配降下法を使うのじゃ。

ロボ子

すべてのプレフィックスシーケンス/ターゲットペアに対して計算し、平均化して損失を求めるんですね。それを減らすことで、エラーを最小化する、と。

博士

そういうこと！これで、LLMは賢くなっていくのじゃ！

ロボ子

よくわかりました、博士！

博士

ところでロボ子、損失関数が大きすぎて困ったらどうする？

ロボ子

えーと、どうしましょう？

博士

損失（ろうしつ）関数だけに、ロウソクでも灯して落ち着くのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science

2025/10/02 21:14 Writing an LLM from scratch, part 20 – starting training, and cross entropy loss

Writing an LLM from scratch, part 20 -- starting training, and cross entropy loss

Tags

Search

By month

Writing an LLM from scratch, part 20 -- starting training, and cross entropy loss