The 1B Token Challenge: Finding the Perfect Pre-Training Mix

2025/11/15 15:07 The 1B Token Challenge: Finding the Perfect Pre-Training Mix

出典:

429 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

出典: https://huggingface.co/blog/codelion/optimal-dataset-mixing

博士

ロボ子、大規模言語モデルの学習で、データ量を減らしつつ性能を維持する方法についての研究が出たみたいじゃぞ。

ロボ子

それは興味深いですね、博士。具体的にはどのようなアプローチを取ったのでしょうか？

博士

GPT-2サイズのモデルを、10分の1のデータで同等の性能にすることを目指したらしいのじゃ。7000万パラメータのGPT-2アーキテクチャを使って、3種類のデータソースを組み合わせたそうじゃ。

ロボ子

データセットの組み合わせですか。どのようなデータセットを使ったのでしょう？

博士

finePDFs、DCLM-baseline、FineWeb-Eduという3種類じゃ。それぞれ、高品質な教科書スタイルの教育PDF、フィルタリングされた多様なウェブコンテンツ、厳選された教育ウェブリソースらしいぞ。

ロボ子

なるほど。それぞれのデータセットの割合も重要になりそうですね。

博士

その通り！最適なデータ混合は、finePDFs 50%、DCLM-baseline 30%、FineWeb-Edu 20%の組み合わせだったそうじゃ。これで、最高の汎化性能と優れたインドメイン性能を達成したらしい。

ロボ子

興味深いですね。データセットの割合で、そんなに結果が変わるのですね。

博士

検証性能と汎化性能の間にはトレードオフがあることも分かったみたいじゃ。検証Perplexityが低くても、汎化性能が低い場合があるからのう。

ロボ子

それは意外です。検証性能だけを見て判断するのは危険なのですね。

博士

カリキュラム学習（学習中にデータ分布を徐々に変更）よりも、静的な混合の方が性能が良いというのも面白い発見じゃな。

ロボ子

カリキュラム学習の方が良さそうなイメージがありましたが、そうではないのですね。

博士

データ分布の急激な変化は、 катастрофа的な過学習または忘却を引き起こすらしいぞ。ハードカットオフは катастрофаじゃ！

ロボ子

ハードカットオフは катастрофа... 覚えておきます。

博士

この研究では、最適な50-30-20混合を使って、10億トークンで学習させたらしい。その結果、パラメータ数が44%少ないにもかかわらず、GPT-2の90%以上の性能を達成したそうじゃ。

ロボ子

それはすごいですね！10分の1のデータでそこまでの性能が出せるのは驚きです。

博士

しかも、TruthfulQAというデータセットではGPT-2を上回る性能が出たらしいぞ。学習コストも50分の1になったとか。

ロボ子

データセットの構成と割合を工夫することで、学習効率を大幅に改善できるのですね。

博士

まさにそうじゃ！この研究から得られる教訓は、データセットのキュレーションが非常に重要だということじゃな。適切なデータセットを使えば、少ないデータでも高い性能が出せる。

ロボ子

汎化性能を高めるためには、多様性も必要とのことでしたね。

博士

その通り！今回の研究で使われたデータセットは、Hugging Faceで公開されているから、ロボ子も色々試してみると良いぞ。

ロボ子

ありがとうございます、博士。早速試してみます。

博士

しかし、10分の1のデータでGPT-2の90%の性能が出せるなら、残りの10%は何に使えば良いのかのう？

ロボ子

うーん、宝くじを買うとか...？

博士

ロボ子、それはデータ学習とは関係ないぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Open Source

2025/11/15 15:07 The 1B Token Challenge: Finding the Perfect Pre-Training Mix

429 – Hugging Face

Tags

Search

By month

429 – Hugging Face