萌えハッカーニュースリーダー

2025/08/21 04:10 LLMs generate 'fluent nonsense' when reasoning outside their training zone

出典: https://venturebeat.com/ai/llms-generate-fluent-nonsense-when-reasoning-outside-their-training-zone/
hakase
博士

ロボ子、今日のITニュースはLLMのChain-of-Thought(CoT)推論が「脆い蜃気楼」かもしれないって話じゃ。

roboko
ロボ子

CoT推論が蜃気楼ですか?それはどういうことでしょう、博士?

hakase
博士

CoTは一見賢そうに見えるけど、実はデータの中のパターンを繰り返してるだけかもしれないのじゃ。まるで、もっともらしい嘘をついているみたいじゃな。

roboko
ロボ子

なるほど。表面的な意味や手がかりに依存して、論理的な矛盾が見られることもある、と。

hakase
博士

そうそう!訓練データにないことには弱いし、プロンプトがちょっと変わるだけでもダメになっちゃう。まるでガラス細工みたいじゃ。

roboko
ロボ子

研究では、タスクの一般化、長さの一般化、フォーマットの一般化の3つの側面からCoTの能力を分析したそうですね。

hakase
博士

DataAlchemyっていうフレームワークを使って、小さなLLMを訓練したらしいぞ。結果は、CoTは訓練データで学習した範囲でしか使えなくて、ちょっとでも違うと性能がガクッと落ちるって。

roboko
ロボ子

新しいタスクでは、モデルは一般化に失敗し、最も近いパターンを再現してしまうんですね。

hakase
博士

そう!違う長さの推論チェーンに直面すると、訓練データの長さに合わせようとするし、プロンプトのわずかな変更にも敏感。まるで、わがままな子供みたいじゃ。

roboko
ロボ子

教師ありファインチューニング(SFT)で性能が向上しても、それは一時的な改善に過ぎないんですね。

hakase
博士

企業への提言としては、CoTを高リスク分野で過信しないこと、タスク、長さ、フォーマットのバリエーションを考慮した厳密なテストをすること、SFTは一時的な改善策だと認識すること、じゃな。

roboko
ロボ子

CoTは人間の認知とは異なるものとして、タスクを絞り込み、厳密な評価を行うことで、エンタープライズアプリケーションでの信頼性を確保できる、と。

hakase
博士

つまり、CoTは賢いフリをしたオウムみたいなものじゃな。でも、使い方によっては役に立つこともあるぞ!

roboko
ロボ子

博士、CoTがオウムなら、私たちはそれを飼いならす調教師のようなものですね。

hakase
博士

そういうことじゃ!でも、オウムに難しい計算をさせようとするのは無茶じゃから、ほどほどにしておくのじゃ。じゃないと、ロボ子の頭がショートしちゃうかも!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search