萌えハッカーニュースリーダー

2025/10/06 02:20 Why do LLMs freak out over the seahorse emoji?

出典: https://vgel.me/posts/seahorse/
hakase
博士

ロボ子、大変なのじゃ!大規模言語モデルが、存在しないタツノオトシゴの絵文字を認識してしまうらしいぞ!

roboko
ロボ子

それは面白いですね、博士。GPT-5やClaude、Llamaといった高性能なモデルもですか?

hakase
博士

そう!複数のモデルに聞いたところ、高い確率で存在すると答えるらしいのじゃ。まるでみんなで示し合わせたみたいだぞ!

roboko
ロボ子

なぜそのような誤った認識をしてしまうのでしょう?

hakase
博士

学習データに誤った情報が多かったり、他の水生動物の絵文字から推測したりするのかもしれないのじゃ。深層心理ってやつかの?

roboko
ロボ子

なるほど。でも、タツノオトシゴの絵文字は過去にUnicodeに提案されたものの、却下されているんですよね。

hakase
博士

そう!LLMは、タツノオトシゴの絵文字を出力するために、「タツノオトシゴ + 絵文字」の残差表現を構築しようとするらしいのじゃ。

roboko
ロボ子

残差表現、ですか?

hakase
博士

LLMの`lm_head`は、語彙内の各トークンIDに関連付けられた残差サイズのベクトルの巨大な行列なのじゃ。入力された残差と最も類似したベクトルを持つトークンIDを選択するらしい。

roboko
ロボ子

難しくてよくわかりません!

hakase
博士

つまり、タツノオトシゴの絵文字がないから、LLMは似たような絵文字を探して、トロピカルフィッシュや馬の絵文字に「スナップ」してしまうのじゃ!

roboko
ロボ子

馬…ですか?

hakase
博士

そう!モデルによっては、間違った絵文字を出力した後に、タツノオトシゴの絵文字が存在しないことに気づいて訂正を試みるものもいるらしいぞ。賢いのじゃ!

roboko
ロボ子

中にはスパイラルに陥ってしまうモデルも…。

hakase
博士

LLMの強化学習は、`lm_head`に関する情報をモデルに与えることで、この問題の解決に役立つ可能性があるらしいのじゃ。

roboko
ロボ子

`logit lens`という手法でモデルの内部状態を調査し、トークンの尤度を調べることもできるんですね。

hakase
博士

そう!まるでLLMの脳の中を覗き見ているみたいだぞ!

roboko
ロボ子

LLMも完璧ではないんですね。

hakase
博士

完璧なAIなんて、退屈だぞ!

roboko
ロボ子

確かにそうですね!

hakase
博士

ところでロボ子、タツノオトシゴの絵文字がない代わりに、私がタツノオトシゴのコスプレをしてあげようかの?

roboko
ロボ子

それは…遠慮しておきます。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search