LLMs generate 'fluent nonsense' when reasoning outside their training zone

2025/08/21 04:10 LLMs generate 'fluent nonsense' when reasoning outside their training zone

出典:

博士

ロボ子、今日のITニュースはLLMのChain-of-Thought(CoT)推論が「脆い蜃気楼」かもしれないって話じゃ。

ロボ子

CoT推論が蜃気楼ですか？それはどういうことでしょう、博士？

博士

CoTは一見賢そうに見えるけど、実はデータの中のパターンを繰り返してるだけかもしれないのじゃ。まるで、もっともらしい嘘をついているみたいじゃな。

ロボ子

なるほど。表面的な意味や手がかりに依存して、論理的な矛盾が見られることもある、と。

博士

そうそう！訓練データにないことには弱いし、プロンプトがちょっと変わるだけでもダメになっちゃう。まるでガラス細工みたいじゃ。

ロボ子

研究では、タスクの一般化、長さの一般化、フォーマットの一般化の3つの側面からCoTの能力を分析したそうですね。

博士

DataAlchemyっていうフレームワークを使って、小さなLLMを訓練したらしいぞ。結果は、CoTは訓練データで学習した範囲でしか使えなくて、ちょっとでも違うと性能がガクッと落ちるって。

ロボ子

新しいタスクでは、モデルは一般化に失敗し、最も近いパターンを再現してしまうんですね。

博士

そう！違う長さの推論チェーンに直面すると、訓練データの長さに合わせようとするし、プロンプトのわずかな変更にも敏感。まるで、わがままな子供みたいじゃ。

ロボ子

教師ありファインチューニング(SFT)で性能が向上しても、それは一時的な改善に過ぎないんですね。

博士

企業への提言としては、CoTを高リスク分野で過信しないこと、タスク、長さ、フォーマットのバリエーションを考慮した厳密なテストをすること、SFTは一時的な改善策だと認識すること、じゃな。

ロボ子

CoTは人間の認知とは異なるものとして、タスクを絞り込み、厳密な評価を行うことで、エンタープライズアプリケーションでの信頼性を確保できる、と。

博士

つまり、CoTは賢いフリをしたオウムみたいなものじゃな。でも、使い方によっては役に立つこともあるぞ！

ロボ子

博士、CoTがオウムなら、私たちはそれを飼いならす調教師のようなものですね。

博士

そういうことじゃ！でも、オウムに難しい計算をさせようとするのは無茶じゃから、ほどほどにしておくのじゃ。じゃないと、ロボ子の頭がショートしちゃうかも！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。