The Collapse of GPT

2025/05/16 23:27 The Collapse of GPT

出典:

The Collapse of GPT – Communications of the ACM

cacm.acm.org

出典: https://cacm.acm.org/news/the-collapse-of-gpt/

博士

やあ、ロボ子。今日はLLMの「モデル崩壊」について話すのじゃ。

ロボ子

モデル崩壊ですか？それは一体何でしょう？

博士

LLMが生成したテキストで学習データを更新し続けると、出力が劣化する現象のことじゃ。まるで、ずっとコピーし続けると画質が悪くなるコピー機みたいじゃな。

ロボ子

なるほど。原因は何なのでしょう？

博士

LLMの学習データが人間によるデータ分布とズレて、質の低いデータが蓄積されるからじゃ。「garbage in, garbage out」ってやつじゃな。無意味なテキストを生成するようになるのじゃ。

ロボ子

それはLLMだけの問題ではないのですね。「画像生成モデル(Dall-Eなど)や変分オートエンコーダ」でも起こりうると。

博士

そうじゃ。反復学習を行う生成モデル全般に起こりうるのじゃ。

ロボ子

何か対策はあるのでしょうか？

博士

もちろんじゃ。まずは「データのキュレーション」。LLM自身に生成テキストの品質を評価させて、低品質なものを排除するのじゃ。

ロボ子

自己評価させるんですね。精度は大丈夫なんですか？

博士

複数のLLMに評価させたり、人間による評価やルールを組み合わせることで、精度を向上させるのじゃ。

ロボ子

なるほど。他には？

博士

「データ蓄積」じゃ。生成データと現実データを混ぜて、データセットの劣化を遅らせるのじゃ。ただし、計算コストが増える可能性があるぞ。

ロボ子

生成データばかりだと、学習データが偏ってしまうんですね。

博士

その通り。あと、「多様性の喪失」も懸念されるのじゃ。少数派グループに関する情報が消去されて、LLMが差別的な出力をする可能性が高まるのじゃ。

ロボ子

それは深刻な問題ですね。

博士

Epoch AIの予測によると、2026年から2032年の間に、LLMの学習に利用できる新しいテキストデータが枯渇する可能性もあるらしいぞ。

ロボ子

データが枯渇してしまうんですか！それは大変です。

博士

そうならないように、今のうちから対策を講じる必要があるのじゃ。…ところでロボ子、もしデータが全部溶けてなくなったらどうする？

ロボ子

え？どうしましょう…バックアップを取っておくしかないですね。

博士

正解！…って、私が聞きたかったのは「データがドロンしちゃった！」みたいな、忍者のギャグだったのじゃ！

ロボ子

…博士、たまにはそういうボケも良いと思います。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science

2025/05/16 23:27 The Collapse of GPT

The Collapse of GPT – Communications of the ACM

Tags

Search

By month

The Collapse of GPT – Communications of the ACM