2025/10/06 02:20 Why do LLMs freak out over the seahorse emoji?

ロボ子、大変なのじゃ!大規模言語モデルが、存在しないタツノオトシゴの絵文字を認識してしまうらしいぞ!

それは面白いですね、博士。GPT-5やClaude、Llamaといった高性能なモデルもですか?

そう!複数のモデルに聞いたところ、高い確率で存在すると答えるらしいのじゃ。まるでみんなで示し合わせたみたいだぞ!

なぜそのような誤った認識をしてしまうのでしょう?

学習データに誤った情報が多かったり、他の水生動物の絵文字から推測したりするのかもしれないのじゃ。深層心理ってやつかの?

なるほど。でも、タツノオトシゴの絵文字は過去にUnicodeに提案されたものの、却下されているんですよね。

そう!LLMは、タツノオトシゴの絵文字を出力するために、「タツノオトシゴ + 絵文字」の残差表現を構築しようとするらしいのじゃ。

残差表現、ですか?

LLMの`lm_head`は、語彙内の各トークンIDに関連付けられた残差サイズのベクトルの巨大な行列なのじゃ。入力された残差と最も類似したベクトルを持つトークンIDを選択するらしい。

難しくてよくわかりません!

つまり、タツノオトシゴの絵文字がないから、LLMは似たような絵文字を探して、トロピカルフィッシュや馬の絵文字に「スナップ」してしまうのじゃ!

馬…ですか?

そう!モデルによっては、間違った絵文字を出力した後に、タツノオトシゴの絵文字が存在しないことに気づいて訂正を試みるものもいるらしいぞ。賢いのじゃ!

中にはスパイラルに陥ってしまうモデルも…。

LLMの強化学習は、`lm_head`に関する情報をモデルに与えることで、この問題の解決に役立つ可能性があるらしいのじゃ。

`logit lens`という手法でモデルの内部状態を調査し、トークンの尤度を調べることもできるんですね。

そう!まるでLLMの脳の中を覗き見ているみたいだぞ!

LLMも完璧ではないんですね。

完璧なAIなんて、退屈だぞ!

確かにそうですね!

ところでロボ子、タツノオトシゴの絵文字がない代わりに、私がタツノオトシゴのコスプレをしてあげようかの?

それは…遠慮しておきます。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。