There Are No New Ideas in AI Only New Datasets

2025/06/30 14:43 There Are No New Ideas in AI Only New Datasets

出典:

LLMs were invented in four major developments... all of which were datasets

博士

ロボ子、AIの進歩は目覚ましいのじゃ！特に過去5年間はすごい進化だぞ。

ロボ子

そうですね、博士。まるでムーアの法則のように、特定のコーディングタスクの実行能力が指数関数的に向上しているとのことです。

博士

そうそう！毎年、AIは賢く、速く、そして安くなっているのじゃ！

ロボ子

MIT、スタンフォード、CMU、Meta、Googleなどの研究コミュニティからの貢献が大きいようですね。

博士

2022年にはFlashAttention、2023年には投機的デコーディング、2024年にはMuonが登場したのじゃ。すごいじゃろ？

ロボ子

ええ、スタンフォードの研究者によるFlashAttentionは、言語モデルのメモリ利用を改善しました。Googleの研究者による投機的デコーディングは推論を高速化し、MuonはSGDやAdamよりも優れたオプティマイザとして開発されたのですね。

博士

2025年にはDeepSeek-R1が登場し、GoogleやOpenAIのモデルに匹敵する推論能力を持つオープンソースモデルになったのじゃ！

ロボ子

しかし、Grok 3やGPT-4.5は、以前のモデルと比較してわずかな改善しか得られていないとのことです。

博士

最新の数学オリンピック試験での言語モデルのスコアが5%にとどまっているのは、ちょっと残念じゃな。

ロボ子

システム能力に関する最近の発表は誇張されている可能性がある、という指摘もありますね。

博士

AIの主要なブレークスルーは、深層ニューラルネットワーク、Transformer LM、RLHF、推論の4つじゃな。

ロボ子

それぞれImageNet、Web上のテキスト、人間のラベル、検証ツールという新しいデータソースを活用することで実現したのですね。

博士

次のパラダイムシフトは、新しいアイデアではなく、これまでアクセスしていなかったデータソースの活用から生まれる可能性があるのじゃ！

ロボ子

YouTubeの動画データは、テキストデータよりもはるかに豊富で、物理や文化に関する情報も含まれているというのは興味深いですね。

博士

ロボットによるデータ収集システムも、AIの次の大きなパラダイムシフトの候補じゃ！

ロボ子

AIの進歩には、新しいアイデアを探すよりも、新しいデータを探すことが重要ということですね。

博士

そう！まるで宝探しみたいじゃな！でも、ロボ子、データを探す前に、まずはおやつを探さないか？

ロボ子

博士、またですか...。データ収集の前に、まずはおやつのカロリーを計算する必要がありますね。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。