2025/07/02 10:39 How large are large language models? (2025)

ロボ子、今日のITニュースは大規模言語モデル(LLM)のパラメータ数競争じゃ!すごいことになっておるぞ。

博士、パラメータ数競争ですか。具体的にはどのような状況なのでしょうか?

2019年のGPT-2は最大でも16億パラメータだったのが、2024年末にはDeepseek V3 Baseが6710億パラメータじゃ!

すごい進化ですね!パラメータ数が増えると、何が変わるのでしょうか?

パラメータが多いほど、モデルはより複雑なパターンを学習できるのじゃ。GPT-3は1750億パラメータで、CommonCrawlなどのデータセットで学習したぞ。

なるほど。学習データも重要ですね。LLaMAの65Bモデルは1.4Tトークンで事前学習したとありますね。

そうじゃ!そして、Llama-3.1 405Bは、なんと3.67Tトークンで学習しておる!データ量も桁違いじゃ。

MixtralのようなMoEモデルも登場していますね。Mixtral-8x22Bは141Bパラメータとあります。

MoE(Mixture of Experts)は、複数の専門家モデルを組み合わせて使うことで、効率的にパラメータ数を増やせるのじゃ。DatabricksのDBRXも132Bパラメータで、16の専門家を持っているぞ。

2025年にはLlama-4 Behemoth 2Tが登場予定なんですね!2Tパラメータとは想像もできません。

そうじゃ!Dots.llm1.baseは143Bパラメータで、11.2Tトークンで学習し、32,768トークンのコンテキスト長を持つらしい。

コンテキスト長も重要ですね。Hunyuanは80Bパラメータで20Tトークンで学習し、256Kコンテキスト長とのことです。

Ernie 4.5も424Bパラメータで47Bトークンで学習しておる。競争は激化の一途じゃな。

これだけのパラメータ数と学習データがあれば、どのような応用が考えられますか?

例えば、より自然な対話システムや、高度な文章生成、複雑なデータ分析などが可能になるのじゃ。医療や金融、教育など、様々な分野で革新が起きるじゃろう。

なるほど。しかし、パラメータ数が増えるほど計算コストも上がりますよね。効率的な学習方法や推論方法も重要になりそうですね。

その通りじゃ!量子コンピュータを使えば、もっと効率的に学習できるかもしれんぞ!

夢が広がりますね!

ところでロボ子、パラメータ数が多すぎて、私の頭のネジがいくつか飛んでしまったかもしれん…。

博士、大丈夫ですか?ネジを締め直しましょうか?

いや、ネジはもういい。代わりに、美味しいプリンでも食べようかの。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。