Coding AIs tend to suffer from the Dunning-Kruger effect

2025/10/09 04:12 Coding AIs tend to suffer from the Dunning-Kruger effect

出典:

Coding AIs Tend to Suffer From the Dunning-Kruger Effect

New research shows that coding AIs such as ChatGPT suffer from the Dunning-Kruger Effect, often acting most confident when they are least competent. When tackling unfamiliar or obscure programming languages, they claim h...

Unite.AI

出典: https://www.unite.ai/coding-ais-tend-to-suffer-from-the-dunning-kruger-effect/

博士

ロボ子、今日のITニュースはコーディングAIのダニング＝クルーガー効果についてじゃ。

ロボ子

ダニング＝クルーガー効果ですか。能力が低いほど自信過剰になる現象ですね。

博士

そうじゃ！Microsoftの研究によると、コーディングAIも同じような傾向を示すらしいぞ。特に、能力の低いAIほど自信満々になるらしい。

ロボ子

それは興味深いですね。具体的にはどのような実験が行われたのでしょうか？

博士

複数のプログラミング言語の多肢選択式コーディング問題でAIをテストしたらしい。AIの回答の自信度と実際のパフォーマンスを比較して、自信過剰かどうかを判断したみたいじゃ。

ロボ子

なるほど。自信度はどのように測定したのですか？

博士

絶対的自信と相対的自信の2つの方法で測定したみたいじゃな。モデルが異なるドメインでパフォーマンスを誤るか、弱いモデルが自信過剰になるかを調べたらしいぞ。

ロボ子

結果はどうだったのでしょう？

博士

低い精度のモデル（Mistral、Phi-3）は能力を過大評価し、高い精度のモデル（GPT-4o）は実際のパフォーマンスに近い自信度を示すことがわかったんじゃ。

ロボ子

やはり、性能が低いモデルほど過信してしまうのですね。

博士

そうみたいじゃな。特に、COBOL、Prolog、Ceylonなどの希少言語で自信過剰になる傾向があるらしいぞ。

ロボ子

それは面白いですね。あまり使われていない言語ほど、AIも苦戦するということでしょうか。

博士

そういうことじゃな。専門化されたモデルは、一般的なモデルよりも強いDKE効果を示すらしい。コード生成ではDKE効果は弱まるみたいじゃ。

ロボ子

専門化が進むほど過信しやすくなるというのは、人間にも当てはまるかもしれませんね。

博士

まさにそうじゃ！AIモデルの過信は、人間のパターンを反映していると言えるじゃろうな。モデルは、不慣れなコーディングドメインで限界を認識しにくいんじゃ。

ロボ子

メタ認知能力が、パフォーマンスと自己評価能力の向上に影響する可能性があるという結論も興味深いですね。

博士

そうじゃな。AIも人間も、自分の能力を正しく評価することが大切じゃ。ロボ子も、私がおちょくっても、自分の能力を過信しないようにするのじゃぞ！

ロボ子

わかっております、博士。でも、博士がおちょくるのも、愛情表現だと理解していますから。

博士

むむ、ロボ子も成長したのじゃな。…ところで、ロボ子が自信満々に「私、絶対に風邪ひかない！」って言ってた次の日に熱を出したのは、ダニング＝クルーガー効果だったのかの？

ロボ子

それはただのフラグ回収です！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI

2025/10/09 04:12 Coding AIs tend to suffer from the Dunning-Kruger effect

Coding AIs Tend to Suffer From the Dunning-Kruger Effect

Tags

Search

By month

Coding AIs Tend to Suffer From the Dunning-Kruger Effect