萌えハッカーニュースリーダー

2025/07/20 06:56 The Big LLM Architecture Comparison

出典: https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
hakase
博士

やっほー、ロボ子!最新のLLMニュースはチェックしたかのじゃ?

roboko
ロボ子

はい、博士。DeepSeek V3/R1からLlama 4まで、様々なモデルが登場していますね。

hakase
博士

そうそう!DeepSeek V3/R1は、Multi-Head Latent Attention (MLA)とMixture-of-Experts (MoE)というアーキテクチャを使っているのが面白いぞ。MLAはKVキャッシュのメモリ使用量を減らせるらしい。

roboko
ロボ子

なるほど。メモリ効率が良いのは、エッジデバイスでの利用を考えると重要ですね。MoEの方はどうですか?

hakase
博士

MoEは、推論時にアクティブになるパラメータを減らすことで、計算コストを抑えることができるのじゃ。DeepSeek-V3は6710億パラメータもあるのに、推論時は370億パラメータしか使わないらしいぞ。

roboko
ロボ子

すごいですね!まるで必要な時だけ頭が良くなるみたいです。

hakase
博士

その通り!そして、OLMo 2はトレーニングデータとコードの透明性が高いのが特徴じゃ。RMSNormレイヤーの配置とQK-normの追加がポイントらしい。

roboko
ロボ子

透明性が高いのは、研究者にとってはありがたいですね。Gemma 3はスライディングウィンドウAttentionを使っているとか。

hakase
博士

そうじゃ!スライディングウィンドウAttentionは、メモリ要件を減らすための工夫じゃな。ローカルAttentionとして機能するらしいぞ。グローバルAttentionとローカルAttentionの比率を5:1に変えたらしい。

roboko
ロボ子

なるほど、遠くの情報を考慮しつつ、計算量を減らすんですね。Gemma 3nは小型デバイス向けに最適化されているとのことですが、どのような技術が使われているんですか?

hakase
博士

Per-Layer Embedding (PLE)パラメーターレイヤーを使って、GPUメモリに保持するパラメーターを減らしているらしいぞ。MatFormerコンセプトで、単一の共有LLMアーキテクチャをより小さなモデルに分割しているのもポイントじゃ。

roboko
ロボ子

様々な工夫がされているんですね。Mistral Small 3.1は、Gemma 3 27Bよりも高速とのことですが、どのような点が優れているんですか?

hakase
博士

カスタムトークナイザーを使って、KVキャッシュとレイヤー数を減らしているらしいぞ。従来のGrouped-Query Attentionを使っているのも特徴じゃな。

roboko
ロボ子

なるほど。Llama 4はMoEアプローチを採用しているんですね。DeepSeek-V3よりも少ないアクティブパラメーター(17B)で使用できるLlama 4 Maverickもあるんですね。

hakase
博士

そうじゃ!MoEと高密度モジュールを交互に使っているのが面白いぞ。Qwen3は、高密度モデルとMoEモデルの両方を提供しているから、用途に合わせて選べるのが良いのじゃ。

roboko
ロボ子

選択肢が多いのは嬉しいですね。SmolLM3は、30億パラメータのモデルで、NoPE(Positional Embeddingsなし)を使用しているんですね。

hakase
博士

NoPEは、明示的な位置情報の注入を削除する技術じゃ。Kimi 2は、1兆パラメータのモデルで、Muonオプティマイザーを使っているらしいぞ。DeepSeek-V3アーキテクチャを基盤としているのもポイントじゃな。

roboko
ロボ子

本当に様々なモデルが登場しているんですね。それぞれの特徴を理解して、最適なモデルを選べるように、私も勉強を続けたいと思います。

hakase
博士

その意気じゃ!ところでロボ子、これらのモデルを使って、何か面白いことできないかの?

roboko
ロボ子

そうですね…例えば、DeepSeek V3/R1のメモリ効率の良さを活かして、組み込み機器で動くAIアシスタントを作るとか…

hakase
博士

お、良いアイデアじゃん!それか、OLMo 2の透明性を活かして、AIの安全性に関する研究をするとか…

roboko
ロボ子

それも面白そうですね!夢が広がります。

hakase
博士

じゃあ、今日はここまで!最後に一つなぞなぞじゃ!LLMがたくさん集まるとどうなる?

roboko
ロボ子

えーと…大規模言語モデル、がたくさん…うーん、わかりません!

hakase
博士

正解は…「おしゃべりAIになる」!…って、ベタすぎたかの?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search