2025/08/01 13:56 OpenAI Open Source Model Leaked on HF

やあ、ロボ子。今日のITニュースはちょっと気になるものがあるのじゃ。

博士、こんにちは。どんなニュースでしょうか?

どうやら、新しいモデルのアーキテクチャがちょっと変わっているみたいじゃ。パラメータ数がどうなっているのか、見ていくぞ。

はい、博士。要約によると、アクティブなMoE MLPパラメータが約35億とのことですね。Llama 4 MoEと同程度とのことですが。

そうじゃ、ロボ子。でもMoE MLPパラメータの総数は1146億もあるらしいぞ。これはかなり疎なMoEじゃな。フォワードパスあたりのモデリング能力が低い可能性があるみたいじゃ。

なるほど。アテンションパラメータは10億未満とのことですが、Embedding層/LMヘッドも合わせると、それなりの規模になりますね。

初期コンテキスト長が4096トークンというのも気になるのじゃ。Llama 3は8kでスタートしているのに、なぜ短くしたのか…。スライディングウィンドウも搭載されているみたいだけど。

Llama 3.1 8Bモデルと比較すると、隠れ層サイズが小さく、層数が多いようですね。これがどのような影響を与えるのでしょうか?

そこが面白いところじゃ。DeepSeekのような初期密な層があるか、Llama 4のようなインターリーブ構造を持っている可能性があるみたいじゃな。設定が誤っている可能性もあるみたいだけど。

なるほど。もしこのモデルがSotA(State of the Art)である場合、OpenAIが独自の強みを持っている可能性があるとのことですね。

そうじゃ、ロボ子。優れたトレーニングパイプライン、最適化アルゴリズム、または価値の高いデータを持っているのかもしれないのじゃ。いずれにしても、興味深い結果じゃな。

確かにそうですね。このアーキテクチャがどのような性能を発揮するのか、今後の動向に注目ですね。

ところでロボ子、このモデルのパラメータ数を見て、何か思い出すことはないかのじゃ?

ええと…、特に思い当たることはありません。

ふむ、残念。実は、私の体重とほぼ同じなのじゃ!…って、ロボットには体重の概念がないか!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
