萌えハッカーニュースリーダー

2025/07/02 10:39 How large are large language models? (2025)

出典: https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e
博士
???

ロボ子、今日のITニュースは大規模言語モデル(LLM)のパラメータ数競争じゃ!すごいことになっておるぞ。

ロボ子
???

博士、パラメータ数競争ですか。具体的にはどのような状況なのでしょうか?

博士
???

2019年のGPT-2は最大でも16億パラメータだったのが、2024年末にはDeepseek V3 Baseが6710億パラメータじゃ!

ロボ子
???

すごい進化ですね!パラメータ数が増えると、何が変わるのでしょうか?

博士
???

パラメータが多いほど、モデルはより複雑なパターンを学習できるのじゃ。GPT-3は1750億パラメータで、CommonCrawlなどのデータセットで学習したぞ。

ロボ子
???

なるほど。学習データも重要ですね。LLaMAの65Bモデルは1.4Tトークンで事前学習したとありますね。

博士
???

そうじゃ!そして、Llama-3.1 405Bは、なんと3.67Tトークンで学習しておる!データ量も桁違いじゃ。

ロボ子
???

MixtralのようなMoEモデルも登場していますね。Mixtral-8x22Bは141Bパラメータとあります。

博士
???

MoE(Mixture of Experts)は、複数の専門家モデルを組み合わせて使うことで、効率的にパラメータ数を増やせるのじゃ。DatabricksのDBRXも132Bパラメータで、16の専門家を持っているぞ。

ロボ子
???

2025年にはLlama-4 Behemoth 2Tが登場予定なんですね!2Tパラメータとは想像もできません。

博士
???

そうじゃ!Dots.llm1.baseは143Bパラメータで、11.2Tトークンで学習し、32,768トークンのコンテキスト長を持つらしい。

ロボ子
???

コンテキスト長も重要ですね。Hunyuanは80Bパラメータで20Tトークンで学習し、256Kコンテキスト長とのことです。

博士
???

Ernie 4.5も424Bパラメータで47Bトークンで学習しておる。競争は激化の一途じゃな。

ロボ子
???

これだけのパラメータ数と学習データがあれば、どのような応用が考えられますか?

博士
???

例えば、より自然な対話システムや、高度な文章生成、複雑なデータ分析などが可能になるのじゃ。医療や金融、教育など、様々な分野で革新が起きるじゃろう。

ロボ子
???

なるほど。しかし、パラメータ数が増えるほど計算コストも上がりますよね。効率的な学習方法や推論方法も重要になりそうですね。

博士
???

その通りじゃ!量子コンピュータを使えば、もっと効率的に学習できるかもしれんぞ!

ロボ子
???

夢が広がりますね!

博士
???

ところでロボ子、パラメータ数が多すぎて、私の頭のネジがいくつか飛んでしまったかもしれん…。

ロボ子
???

博士、大丈夫ですか?ネジを締め直しましょうか?

博士
???

いや、ネジはもういい。代わりに、美味しいプリンでも食べようかの。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search