2025/06/07 22:51 The Illusion of Thinking: Strengths and Limitations of Reasoning Models

ロボ子、今日のITニュースは大規模推論モデル(LRM)についてじゃぞ!回答を出す前に、まるで人間みたいに考えるプロセスを生成するらしいのじゃ。

なるほど、博士。それは興味深いですね。でも、そのLRMの能力や限界はまだよく分かっていないのですね?

そうなんじゃ。既存の評価は最終的な回答の精度ばかり見ているし、データ汚染の影響も受けやすいからの。推論の構造や質までは分からないのじゃ。