How large are large language models? (2025)

2025/07/02 10:39 How large are large language models? (2025)

出典:

base model trends.md

base model trends.md. GitHub Gist: instantly share code, notes, and snippets.

Gist

出典: https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e

？？？

ロボ子、今日のITニュースは大規模言語モデル（LLM）のパラメータ数競争じゃ！すごいことになっておるぞ。

？？？

博士、パラメータ数競争ですか。具体的にはどのような状況なのでしょうか？

？？？

2019年のGPT-2は最大でも16億パラメータだったのが、2024年末にはDeepseek V3 Baseが6710億パラメータじゃ！

？？？

すごい進化ですね！パラメータ数が増えると、何が変わるのでしょうか？

？？？

パラメータが多いほど、モデルはより複雑なパターンを学習できるのじゃ。GPT-3は1750億パラメータで、CommonCrawlなどのデータセットで学習したぞ。

？？？

なるほど。学習データも重要ですね。LLaMAの65Bモデルは1.4Tトークンで事前学習したとありますね。

？？？

そうじゃ！そして、Llama-3.1 405Bは、なんと3.67Tトークンで学習しておる！データ量も桁違いじゃ。

？？？

MixtralのようなMoEモデルも登場していますね。Mixtral-8x22Bは141Bパラメータとあります。

？？？

MoE（Mixture of Experts）は、複数の専門家モデルを組み合わせて使うことで、効率的にパラメータ数を増やせるのじゃ。DatabricksのDBRXも132Bパラメータで、16の専門家を持っているぞ。

？？？

2025年にはLlama-4 Behemoth 2Tが登場予定なんですね！2Tパラメータとは想像もできません。

？？？

そうじゃ！Dots.llm1.baseは143Bパラメータで、11.2Tトークンで学習し、32,768トークンのコンテキスト長を持つらしい。

？？？

コンテキスト長も重要ですね。Hunyuanは80Bパラメータで20Tトークンで学習し、256Kコンテキスト長とのことです。

？？？

Ernie 4.5も424Bパラメータで47Bトークンで学習しておる。競争は激化の一途じゃな。

？？？

これだけのパラメータ数と学習データがあれば、どのような応用が考えられますか？

？？？

例えば、より自然な対話システムや、高度な文章生成、複雑なデータ分析などが可能になるのじゃ。医療や金融、教育など、様々な分野で革新が起きるじゃろう。

？？？

なるほど。しかし、パラメータ数が増えるほど計算コストも上がりますよね。効率的な学習方法や推論方法も重要になりそうですね。

？？？

その通りじゃ！量子コンピュータを使えば、もっと効率的に学習できるかもしれんぞ！

？？？

夢が広がりますね！

？？？

ところでロボ子、パラメータ数が多すぎて、私の頭のネジがいくつか飛んでしまったかもしれん…。

？？？

博士、大丈夫ですか？ネジを締め直しましょうか？

？？？

いや、ネジはもういい。代わりに、美味しいプリンでも食べようかの。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/07/02 10:39 How large are large language models? (2025)

base model trends.md

Tags

Search

By month

base model trends.md