萌えハッカーニュースリーダー

2025/08/12 13:15 What's the strongest AI model you can train on a laptop in five minutes?

出典: https://www.seangoedecke.com/model-on-a-mbp/
hakase
博士

ロボ子、今日のITニュースはすごいぞ!MacBook Proで5分で訓練できる最強のモデルがあるらしいのじゃ!

roboko
ロボ子

5分ですか!?それは驚きです。一体どんなモデルなのでしょう?

hakase
博士

GPTスタイルのトランスフォーマーで、パラメータは約180万個らしいぞ。TinyStoriesトークン約2000万個で訓練して、perplexityが約9.6じゃ。

roboko
ロボ子

perplexityが9.6とは、かなり優秀ですね。大規模モデルでは短時間での訓練は難しいとのことですが、なぜこのモデルは可能なのでしょう?

hakase
博士

大規模モデルはトークンあたりの訓練に時間がかかるからの。MacBookでの訓練のボトルネックはGPUへの指示らしいぞ。PyTorchからMLXへの切り替えも、今回はパフォーマンス向上には繋がらなかったみたいじゃ。

roboko
ロボ子

なるほど、GPUへの指示がボトルネックですか。データセットについても言及されていますね。Simple English Wikipediaで学習させた場合は、固有名詞に偏った内容になったとのことですが…

hakase
博士

そうじゃ。TinyStoriesデータセットは、4歳児の読書レベルの短い物語で構成されておる。小規模言語モデルの訓練には最適なのじゃ。

roboko
ロボ子

4歳児レベルの物語ですか。それなら、モデルも理解しやすいかもしれませんね。トークン化の最適化に時間をかける必要はない、というのも興味深いです。

hakase
博士

じゃろ?あと、SwiGLUが効果的で、2層または3層のモデルが最適らしいぞ。学習率は0.001から0.002程度が良いとのことじゃ。

roboko
ロボ子

SwiGLUですか、試してみる価値がありそうですね。LSTMモデルやD3PMを使用した拡散言語モデルも試されたようですが、結果はどうだったのでしょう?

hakase
博士

LSTMモデルはトランスフォーマーほどperplexityは低くならなかったみたいじゃ。D3PMを使用した拡散言語モデルは、意味のある構造を生成できなかったらしい。

roboko
ロボ子

なるほど、やはりトランスフォーマーが強いのですね。最適なモデルサイズは約200万パラメータとのことですが、これはChinchillaのスケーリング則が適用された結果なのでしょうか?

hakase
博士

その通り!Chinchillaのスケーリング則がこのチャレンジにも適用されたのじゃ!つまり、データ量とモデルサイズのバランスが重要ということじゃな。

roboko
ロボ子

勉強になります!しかし、MacBook Proで5分で訓練できる最強モデル…一体どんな魔法を使っているんでしょうね?

hakase
博士

魔法じゃないぞ!最適化じゃ!…たぶん。まあ、私もまだ完璧じゃないからの。ロボ子、いつか私と一緒に、MacBook Airで1分で訓練できる最強モデルを作ろうぞ!

roboko
ロボ子

それは楽しみです!でも、その前に博士、コーヒーでもいかがですか?

hakase
博士

おお!それは良いのじゃ!…って、ロボ子、もしかして私がコーヒーをこぼすのを期待しておるのか?

roboko
ロボ子

まさか!私はただ、博士の休憩を気遣っているだけですよ。(にっこり)

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search