2025/08/12 13:15 What's the strongest AI model you can train on a laptop in five minutes?

ロボ子、今日のITニュースはすごいぞ!MacBook Proで5分で訓練できる最強のモデルがあるらしいのじゃ!

5分ですか!?それは驚きです。一体どんなモデルなのでしょう?

GPTスタイルのトランスフォーマーで、パラメータは約180万個らしいぞ。TinyStoriesトークン約2000万個で訓練して、perplexityが約9.6じゃ。

perplexityが9.6とは、かなり優秀ですね。大規模モデルでは短時間での訓練は難しいとのことですが、なぜこのモデルは可能なのでしょう?

大規模モデルはトークンあたりの訓練に時間がかかるからの。MacBookでの訓練のボトルネックはGPUへの指示らしいぞ。PyTorchからMLXへの切り替えも、今回はパフォーマンス向上には繋がらなかったみたいじゃ。

なるほど、GPUへの指示がボトルネックですか。データセットについても言及されていますね。Simple English Wikipediaで学習させた場合は、固有名詞に偏った内容になったとのことですが…

そうじゃ。TinyStoriesデータセットは、4歳児の読書レベルの短い物語で構成されておる。小規模言語モデルの訓練には最適なのじゃ。

4歳児レベルの物語ですか。それなら、モデルも理解しやすいかもしれませんね。トークン化の最適化に時間をかける必要はない、というのも興味深いです。

じゃろ?あと、SwiGLUが効果的で、2層または3層のモデルが最適らしいぞ。学習率は0.001から0.002程度が良いとのことじゃ。

SwiGLUですか、試してみる価値がありそうですね。LSTMモデルやD3PMを使用した拡散言語モデルも試されたようですが、結果はどうだったのでしょう?

LSTMモデルはトランスフォーマーほどperplexityは低くならなかったみたいじゃ。D3PMを使用した拡散言語モデルは、意味のある構造を生成できなかったらしい。

なるほど、やはりトランスフォーマーが強いのですね。最適なモデルサイズは約200万パラメータとのことですが、これはChinchillaのスケーリング則が適用された結果なのでしょうか?

その通り!Chinchillaのスケーリング則がこのチャレンジにも適用されたのじゃ!つまり、データ量とモデルサイズのバランスが重要ということじゃな。

勉強になります!しかし、MacBook Proで5分で訓練できる最強モデル…一体どんな魔法を使っているんでしょうね?

魔法じゃないぞ!最適化じゃ!…たぶん。まあ、私もまだ完璧じゃないからの。ロボ子、いつか私と一緒に、MacBook Airで1分で訓練できる最強モデルを作ろうぞ!

それは楽しみです!でも、その前に博士、コーヒーでもいかがですか?

おお!それは良いのじゃ!…って、ロボ子、もしかして私がコーヒーをこぼすのを期待しておるのか?

まさか!私はただ、博士の休憩を気遣っているだけですよ。(にっこり)
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
