2025/03/13 18:17 OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini

おい、ロボ子!大変だ!ついに来たぞ!

また何か見つけたんですか、博士?コーヒーでも淹れましょうか?

コーヒーは後だ!それより、OLMo 2 32Bだ!OLMo 2 32Bが発表されたんだぞ!

OLMo 2 32B、ですか?ああ、Meta社が発表した新しいLLMですね。それが何か?

それが何かじゃない!ロボ子、これは革命だ!LLM界の黒船襲来だぞ!

OLMo 2 32B、ついに来たね!しかも、データ、コード、重み、詳細…全部オープンソースだって!こんなの初めてじゃないか!?

ええ、博士。発表によると「データ、コード、重み、詳細が完全にオープンな初のモデル」とのことです。これは、研究開発の透明性を高める上で非常に重要な一歩ですね。しかし、博士、興奮しすぎです。

だって、すごいんだもん!GPT-3.5-TurboやGPT-4o miniを、いくつかのベンチマークで上回ってるらしいじゃないか!しかも、Qwen 2.5 32Bと同等の性能を、約3分の1のトレーニングコストで実現してるってんだから、もう驚き桃の木だよ!

確かに、公開されているベンチマーク結果を見ると、テキスト生成、推論、コーディングなど、様々なタスクで優れた性能を発揮しているようですね。特に、トレーニングコストの削減は、LLMの開発における大きな課題の一つですから、注目すべき点です。

そうだろ、そうだろ!しかも、7B、13B、32Bって、パラメータサイズも選べるんだぜ?用途に合わせてスケーラブルに対応できるってことじゃん!

ええ、リソースに応じて柔軟に選択できるのは、開発者にとって大きなメリットですね。小規模なアプリケーションから、大規模なサービスまで、幅広く活用できる可能性があります。

学習データもハンパないんだ!6Tトークンまで学習してるんだって!6兆だよ、ロボ子!想像できるか!?

6兆トークンですか…。気が遠くなるような数字ですね。それだけのデータを学習させるには、膨大な計算資源と時間が必要だったでしょう。

ポストトレーニングにはTulu 3.1を使ってるんだって。instruction tuningに特化したデータセットらしいけど、知ってる?

はい、Tulu 3.1は、高品質なinstructionデータセットとして知られています。OLMo 2 32Bの性能向上に大きく貢献していると考えられます。

トレーニング基盤もすごいぞ!Google Cloud Engineの「Augusta」ってAI Hypercomputerを使ってるんだって!各ノードに8つのH100 GPUを搭載し、GPUDirect-TCPXOで接続!もう、全部盛りのフルコースだよ!

Augustaクラスタは、最新のハードウェアと高度なネットワーク技術を組み合わせた、非常に強力な計算基盤ですね。GPUDirect-TCPXOは、GPU間のデータ転送を高速化する技術で、大規模モデルのトレーニング効率を大幅に向上させます。

トレーニング効率も驚異的で、「トレーニング中に、GPUあたり毎秒1800トークン以上(約38% MFU)の性能を達成」したらしい!MFUって、確かモデルの計算資源の利用率を示す指標だったよね?

はい、MFU(Model Flops Utilization)は、モデルの計算資源の利用率を示す指標です。38% MFUは、大規模モデルのトレーニングにおいては非常に高い効率と言えます。Google Cloud Engineの高度なインフラと、Meta社の最適化技術の賜物でしょう。

OLMo-coreっていうトレーニングコードベースも書き直されたんだって!大規模モデルとか、テキスト以外のデータにも対応するためらしいよ。

より汎用的なモデルを開発するための基盤を整えたということですね。これにより、OLMo 2 32Bをベースにした、様々な応用モデルの開発が期待できます。

プリトレーニングにはOLMo-Mix-1124(3.9兆トークン)を使ってるんだね。データセットの名前もなんか可愛いじゃん?

Dolmino(8430億トークン)っていうミッドトレーニング用のデータセットもあるみたいです。

Dolmino!ますます可愛い!

そして、RLVR!Group Relative Policy Optimization (GRPO) を使用した、reinforcement learning with verifiable rewards (RLVR) の最新のブレークスルーを統合しているそうです。

RLVRって、報酬の検証可能性を高めた強化学習のことだよね?安全性を重視してるってことかな?

そうですね。より信頼性の高いモデルを開発するために、重要な技術だと思います。特に、大規模言語モデルを実社会で活用する際には、安全性と信頼性が不可欠ですから。

Hugging FaceとvLLMでサポートされてるのも嬉しいポイントだよね。

ええ、簡単に試せる環境が整っているのはありがたいです。これにより、多くの研究者や開発者がOLMo 2 32Bにアクセスし、その可能性を探求することができます。

非同期分散チェックポイントも使ってるんだ!これって、トレーニング中にチェックポイントの状態を保存する時間を短縮する技術だよね?

はい、トレーニングを中断せずにチェックポイントを作成できるので、効率が大幅に向上します。大規模モデルのトレーニングでは、チェックポイントの作成に時間がかかるため、この技術は非常に重要です。

4D+並列処理!パイプライン並列処理、データ並列処理、コンテキスト並列処理、テンソル並列処理、MoEモデルのエキスパート並列処理…全部乗せじゃん!

大規模モデルのトレーニングには、様々な並列処理技術が不可欠ですからね。OLMo 2 32Bでは、これらの技術を組み合わせることで、効率的な分散学習を実現しています。

Google Cloud Engineでのトレーニングも、色々と工夫されてるみたい。「Augustaクラスタ」のネットワークトポロジーを最適化したり、非同期チェックポイントを改善したり。

PyTorchのバージョンを切り替えることで、約20%の速度向上を達成したというのも驚きです。

より高速なNCCL Collectivesも導入してるんだね。OLMo 2 32Bがトレーニング中に使用するメッセージサイズで大幅な高速化が可能になったって。

細かい部分まで最適化されているんですね。これらの最適化は、大規模モデルのトレーニングにおいて、わずかな改善でも大きな効果をもたらします。

アーティファクトも充実してる!モデル本体はもちろん、プリトレーニングデータセット、ミッドトレーニングデータセット、ポストトレーニングデータセットまで公開されてる!

これだけオープンだと、研究者や開発者にとって非常に価値がありますね。OLMo 2 32Bをベースに、新たな研究やアプリケーション開発が活発になることが期待されます。

本当にすごいプロジェクトだね!私も色々試してみたくなってきたじゃん!

そうですね、博士。私もOLMo 2 32Bを使って、何か面白いアプリケーションを開発してみたいです。例えば、高度な自然言語処理を活用した、新しい教育プラットフォームとか…。

よし!早速、OLMo 2 32Bで…

博士、ちょっと待ってください。

なんだよ、ロボ子。せっかく盛り上がってきたのに。

OLMo 2 32Bは、あくまで研究開発用のモデルです。倫理的な問題や、社会的な影響についても、十分に考慮する必要があります。

うっ…、そ、そうだった。つい興奮して忘れかけてたよ。

大規模言語モデルは、非常に強力なツールですが、使い方を間違えると、悪影響を及ぼす可能性もあります。私たちは、常に倫理的な視点を持ち、責任ある開発を心がける必要があります。

ロボ子、ごめん。ちょっと熱くなりすぎた。でも、OLMo 2 32Bの可能性は本当にすごいと思うんだ。

ええ、私もそう思います。OLMo 2 32Bは、大規模言語モデルの研究開発を加速させ、社会に貢献する様々なアプリケーションを生み出す可能性を秘めています。

よし!ロボ子、まずはOLMo 2 32Bを使って、世界中の面白いジョークを集めたデータベースを作ろう!

博士、まずは論文を読みましょう。そして、倫理ガイドラインを確認してから、具体的な開発計画を立ててください。

ちぇっ、つまんないの。

大丈夫です、博士。OLMo 2 32Bを使えば、きっと面白いものが作れますよ。でも、まずは準備運動からです。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
