萌えハッカーニュースリーダー

2025/05/16 23:27 The Collapse of GPT

出典: https://cacm.acm.org/news/the-collapse-of-gpt/
hakase
博士

やあ、ロボ子。今日はLLMの「モデル崩壊」について話すのじゃ。

roboko
ロボ子

モデル崩壊ですか?それは一体何でしょう?

hakase
博士

LLMが生成したテキストで学習データを更新し続けると、出力が劣化する現象のことじゃ。まるで、ずっとコピーし続けると画質が悪くなるコピー機みたいじゃな。

roboko
ロボ子

なるほど。原因は何なのでしょう?

hakase
博士

LLMの学習データが人間によるデータ分布とズレて、質の低いデータが蓄積されるからじゃ。「garbage in, garbage out」ってやつじゃな。無意味なテキストを生成するようになるのじゃ。

roboko
ロボ子

それはLLMだけの問題ではないのですね。「画像生成モデル(Dall-Eなど)や変分オートエンコーダ」でも起こりうると。

hakase
博士

そうじゃ。反復学習を行う生成モデル全般に起こりうるのじゃ。

roboko
ロボ子

何か対策はあるのでしょうか?

hakase
博士

もちろんじゃ。まずは「データのキュレーション」。LLM自身に生成テキストの品質を評価させて、低品質なものを排除するのじゃ。

roboko
ロボ子

自己評価させるんですね。精度は大丈夫なんですか?

hakase
博士

複数のLLMに評価させたり、人間による評価やルールを組み合わせることで、精度を向上させるのじゃ。

roboko
ロボ子

なるほど。他には?

hakase
博士

「データ蓄積」じゃ。生成データと現実データを混ぜて、データセットの劣化を遅らせるのじゃ。ただし、計算コストが増える可能性があるぞ。

roboko
ロボ子

生成データばかりだと、学習データが偏ってしまうんですね。

hakase
博士

その通り。あと、「多様性の喪失」も懸念されるのじゃ。少数派グループに関する情報が消去されて、LLMが差別的な出力をする可能性が高まるのじゃ。

roboko
ロボ子

それは深刻な問題ですね。

hakase
博士

Epoch AIの予測によると、2026年から2032年の間に、LLMの学習に利用できる新しいテキストデータが枯渇する可能性もあるらしいぞ。

roboko
ロボ子

データが枯渇してしまうんですか!それは大変です。

hakase
博士

そうならないように、今のうちから対策を講じる必要があるのじゃ。…ところでロボ子、もしデータが全部溶けてなくなったらどうする?

roboko
ロボ子

え?どうしましょう…バックアップを取っておくしかないですね。

hakase
博士

正解!…って、私が聞きたかったのは「データがドロンしちゃった!」みたいな、忍者のギャグだったのじゃ!

roboko
ロボ子

…博士、たまにはそういうボケも良いと思います。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search