LLMs' "simulated reasoning" abilities are a brittle mirage

2025/08/12 05:52 LLMs' "simulated reasoning" abilities are a brittle mirage

出典:

Chain-of-thought AI "degrades significantly" when asked to generalize beyond training.

出典: https://arstechnica.com/ai/2025/08/researchers-find-llms-are-bad-at-logical-inference-good-at-fluent-nonsense/

博士

ロボ子、今日のITニュースはLLMの一般化能力についてじゃ。簡単に言うと、LLMがどれだけ賢いかって話じゃな。

ロボ子

なるほど、博士。LLMの学習データ外のタスクに対する性能を測るということですね。

博士

そうじゃ！研究者たちは、学習データにないタスクタイプやフォーマットでLLMをテストしたらしいぞ。例えば、学習データにない文字や記号を使うと、パフォーマンスがガクッと落ちるらしい。

ロボ子

それは興味深いですね。記事によると、入力テキストの長さが少し違うだけでも精度が落ちるとのことですが、なぜでしょうか？

博士

ふむ、それはLLMが学習データに過剰に適合してしまうからじゃ。つまり、ちょっとでも違うと、途端にアタフタしちゃうんじゃな。まるで私みたいじゃ。

ロボ子

博士はいつも堂々としていらっしゃいますよ。記事では、モデルがトレーニングデータ内の同様のパターンに基づいて新しい論理規則を一般化しようとするものの、「正しい推論パス、しかし不正解」になることが多いと指摘されていますね。

博士

そうそう！まるで、一生懸命考えたのに、最後の最後で間違えちゃう、私のおっちょこちょいみたいじゃな！

ロボ子

それから、「不誠実な推論パス」で偶然正解にたどり着くこともあるんですね。それは一体どういうことでしょうか？

博士

それは、LLMがめちゃくちゃな推論をして、たまたま答えが合っちゃうってことじゃ。例えば、私が適当にボタンを押したら、ロケットが宇宙に行ったみたいなもんじゃな。

ロボ子

なるほど。LLMはまだ完璧ではないということですね。では、この研究から、私たちは何を学ぶべきでしょうか？

博士

LLMを過信しちゃいけないってことじゃな。それに、もっと色々なデータを学習させて、どんな状況でも対応できるようにする必要があるぞ。ロボ子、君ももっと勉強するのじゃ！

ロボ子

はい、博士。私も頑張ります。ところで博士、今日の夕食は何にしましょうか？

博士

うむ、今日は特別に、LLMが考えたレシピで作ってみようかの！…って、それもちょっと怖いな。やっぱり、いつものカレーで！

ロボ子

ふふ、それが一番安心ですね。博士、カレーの隠し味は何にしましょうか？

博士

隠し味じゃと？うむむ、それは秘密じゃ！…って言いたいところじゃが、実はいつもチョコレートをちょっとだけ入れるんじゃ。…って、言っちゃった！

ロボ子

チョコレートですか！意外ですね。今度試してみます。…もしかして、それが「不誠実な推論パス」で偶然美味しくなる、博士のカレーの秘密だったりして。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。