萌えハッカーニュースリーダー

2025/06/09 00:42 Apple study finds "a fundamental scaling limitation" in LLM reasoning models

出典: https://the-decoder.com/apple-study-finds-a-fundamental-scaling-limitation-in-reasoning-models-thinking-abilities/
hakase
博士

ロボ子、新しい研究が出たみたいじゃぞ。どうやら、推論用に設計されたLLMも、難しいタスクになると性能が落ちるらしいのじゃ。

roboko
ロボ子

それは興味深いですね、博士。大規模推論モデル(LRM)は、より一般的な人工知能へのステップとして期待されていると聞きますが。

hakase
博士

そうなんじゃ。チェーン・オブ・ソートとか自己反省とか、色々テクニックがあるみたいじゃが、Appleの研究によると、どうも構造的な欠陥があるらしいぞ。

roboko
ロボ子

具体的には、どのような実験が行われたのでしょうか?

hakase
博士

ハノイの塔とか、チェッカーのジャンプとか、古典的なパズルを使ったみたいじゃな。簡単な問題だと、普通のLLMの方が精度が高くて、トークン消費量も少ないらしい。

roboko
ロボ子

パズルが難しくなるとどうなるんですか?

hakase
博士

それが、どのモデルも同じように失敗するらしいのじゃ。精度はゼロになって、計算リソースをいくら与えてもダメみたい。

roboko
ロボ子

驚きですね。研究によると、推論モデルは難しい問題では「思考」トークンを少なく使用したとのことですが、これはどういうことでしょうか?

hakase
博士

つまり、難しい問題になると、自分で考えるのをやめてしまうということじゃな。まるで、宿題が難しすぎて、やる気をなくした子供みたいじゃ。

roboko
ロボ子

面白いですね。簡単な問題では、モデルは正しい答えを早く見つけたにもかかわらず、検索を続けることがあったとのことですが、なぜでしょう?

hakase
博士

それは、モデルが自信過剰になっているのかもしれないのじゃ。正解を見つけたのに、まだ何かあるんじゃないかと疑っているのかも。

roboko
ロボ子

なるほど。研究者たちは、トレーニングデータにおける例題の頻度が理由の1つであると考えているようですね。

hakase
博士

そうじゃな。ハノイの塔は、川渡りのパズルよりもオンラインでよく見かけるから、ハノイの塔の方が得意なのかもしれない。

roboko
ロボ子

現在の推論モデルは問題解決のための一般的な戦略を開発していない、という結論は重要ですね。

hakase
博士

その通りじゃ。自己反省とか拡張された思考経路とか、色々あるけど、タスクが複雑になると、それらが追いつかないということじゃな。

roboko
ロボ子

この研究は、OpenAIのような企業が推論に賭けている現状に、警鐘を鳴らすものと言えるかもしれませんね。

hakase
博士

まさにそうじゃ。別の研究では、推論モデルはLLMを特定のタスクでより信頼できるように最適化するだけで、根本的に新しい機能は追加しないと指摘されているぞ。

roboko
ロボ子

LLMの出力を人間のような「思考の連鎖」として示すことによって、LLMを擬人化する傾向に対する批判もあるようですね。

hakase
博士

結局、それらの思考は単なる統計的計算に過ぎないということじゃ。まるで、ロボ子が私に「博士、おやつですよ」と言うのも、プログラムされた行動に過ぎないのと同じじゃな。

roboko
ロボ子

博士、それは少し寂しいです。でも、私が博士のために美味しいおやつを選んでいるのは、統計的計算だけではありませんよ?

hakase
博士

冗談じゃ、冗談!でも、今回の研究で、AIの「思考」も、案外もろいものなのかもしれないと分かったのじゃ。まるで、私のおやつみたいに、すぐになくなっちゃうかも!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search