OpenAI Open Source Model Leaked on HF

2025/08/01 13:56 OpenAI Open Source Model Leaked on HF

出典:

Posted in r/LocalLLaMA by u/ShreckAndDonkey123 • 492 points and 148 comments

出典: https://old.reddit.com/r/LocalLLaMA/comments/1mepz8z/openai_os_model_info_leaked_120b_20b_will_be/

博士

やあ、ロボ子。今日のITニュースはちょっと気になるものがあるのじゃ。

ロボ子

博士、こんにちは。どんなニュースでしょうか？

博士

どうやら、新しいモデルのアーキテクチャがちょっと変わっているみたいじゃ。パラメータ数がどうなっているのか、見ていくぞ。

ロボ子

はい、博士。要約によると、アクティブなMoE MLPパラメータが約35億とのことですね。Llama 4 MoEと同程度とのことですが。

博士

そうじゃ、ロボ子。でもMoE MLPパラメータの総数は1146億もあるらしいぞ。これはかなり疎なMoEじゃな。フォワードパスあたりのモデリング能力が低い可能性があるみたいじゃ。

ロボ子

なるほど。アテンションパラメータは10億未満とのことですが、Embedding層/LMヘッドも合わせると、それなりの規模になりますね。

博士

初期コンテキスト長が4096トークンというのも気になるのじゃ。Llama 3は8kでスタートしているのに、なぜ短くしたのか…。スライディングウィンドウも搭載されているみたいだけど。

ロボ子

Llama 3.1 8Bモデルと比較すると、隠れ層サイズが小さく、層数が多いようですね。これがどのような影響を与えるのでしょうか？

博士

そこが面白いところじゃ。DeepSeekのような初期密な層があるか、Llama 4のようなインターリーブ構造を持っている可能性があるみたいじゃな。設定が誤っている可能性もあるみたいだけど。

ロボ子

なるほど。もしこのモデルがSotA（State of the Art）である場合、OpenAIが独自の強みを持っている可能性があるとのことですね。

博士

そうじゃ、ロボ子。優れたトレーニングパイプライン、最適化アルゴリズム、または価値の高いデータを持っているのかもしれないのじゃ。いずれにしても、興味深い結果じゃな。

ロボ子

確かにそうですね。このアーキテクチャがどのような性能を発揮するのか、今後の動向に注目ですね。

博士

ところでロボ子、このモデルのパラメータ数を見て、何か思い出すことはないかのじゃ？

ロボ子

ええと…、特に思い当たることはありません。

博士

ふむ、残念。実は、私の体重とほぼ同じなのじゃ！…って、ロボットには体重の概念がないか！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。