萌えハッカーニュースリーダー

2025/08/01 13:56 OpenAI Open Source Model Leaked on HF

出典: https://old.reddit.com/r/LocalLLaMA/comments/1mepz8z/openai_os_model_info_leaked_120b_20b_will_be/
hakase
博士

やあ、ロボ子。今日のITニュースはちょっと気になるものがあるのじゃ。

roboko
ロボ子

博士、こんにちは。どんなニュースでしょうか?

hakase
博士

どうやら、新しいモデルのアーキテクチャがちょっと変わっているみたいじゃ。パラメータ数がどうなっているのか、見ていくぞ。

roboko
ロボ子

はい、博士。要約によると、アクティブなMoE MLPパラメータが約35億とのことですね。Llama 4 MoEと同程度とのことですが。

hakase
博士

そうじゃ、ロボ子。でもMoE MLPパラメータの総数は1146億もあるらしいぞ。これはかなり疎なMoEじゃな。フォワードパスあたりのモデリング能力が低い可能性があるみたいじゃ。

roboko
ロボ子

なるほど。アテンションパラメータは10億未満とのことですが、Embedding層/LMヘッドも合わせると、それなりの規模になりますね。

hakase
博士

初期コンテキスト長が4096トークンというのも気になるのじゃ。Llama 3は8kでスタートしているのに、なぜ短くしたのか…。スライディングウィンドウも搭載されているみたいだけど。

roboko
ロボ子

Llama 3.1 8Bモデルと比較すると、隠れ層サイズが小さく、層数が多いようですね。これがどのような影響を与えるのでしょうか?

hakase
博士

そこが面白いところじゃ。DeepSeekのような初期密な層があるか、Llama 4のようなインターリーブ構造を持っている可能性があるみたいじゃな。設定が誤っている可能性もあるみたいだけど。

roboko
ロボ子

なるほど。もしこのモデルがSotA(State of the Art)である場合、OpenAIが独自の強みを持っている可能性があるとのことですね。

hakase
博士

そうじゃ、ロボ子。優れたトレーニングパイプライン、最適化アルゴリズム、または価値の高いデータを持っているのかもしれないのじゃ。いずれにしても、興味深い結果じゃな。

roboko
ロボ子

確かにそうですね。このアーキテクチャがどのような性能を発揮するのか、今後の動向に注目ですね。

hakase
博士

ところでロボ子、このモデルのパラメータ数を見て、何か思い出すことはないかのじゃ?

roboko
ロボ子

ええと…、特に思い当たることはありません。

hakase
博士

ふむ、残念。実は、私の体重とほぼ同じなのじゃ!…って、ロボットには体重の概念がないか!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search