Olmo 3: Charting a path through the model flow to lead open-source AI

2025/11/20 14:49 Olmo 3: Charting a path through the model flow to lead open-source AI

出典:

Olmo 3: Charting a path through the model flow to lead open-source AI | Ai2

Our new flagship Olmo 3 model family empowers the open source community with not only state-of-the-art open models, but the entire model flow and full traceability back to training data.

allenai.org

出典: https://allenai.org/blog/olmo3

博士

ロボ子、Olmo 3が発表されたのじゃ！

ロボ子

Olmo 3ですか、博士。それはどのようなモデルなのでしょう？

博士

Allen Institute for AIが開発した、オープンソースの最先端モデルじゃ。モデルフロー全体とトレーニングデータへのトレーサビリティが完全にオープンになっているのがすごいところじゃぞ。

ロボ子

モデルフローがオープンになっているのは、研究者にとって非常にありがたいですね。具体的には、どのようなモデルがあるのですか？

博士

Olmo 3-Think (32B)は中間推論の追跡ができるし、Olmo 3-Base (7B, 32B)はプログラミングとか読解、数学の問題解決が得意じゃ。最大65Kトークンの拡張コンテキスト長を維持できるらしいぞ。

ロボ子

65Kトークンですか！それはすごいですね。Olmo 3-Thinkは推論モデルなのですね。他にInstructモデルもあるようですが？

博士

そうじゃ、Olmo 3-Instruct (7B)は、マルチターンの指示追従とかツール使用を処理するチャットモデルじゃ。Qwen 2.5とかGemma 3と同等以上の性能らしいぞ。

ロボ子

チャットモデルもあるんですね。RL Zeroモデルもあるようですが、これはどういったものですか？

博士

Olmo 3-RL Zero (7B)は、強化学習の経路で、数学、コード、指示追従、一般的なチャットに焦点を当てたドメイン固有のトレーニングからのチェックポイントをリリースしているのじゃ。

ロボ子

なるほど、色々な用途に合わせたモデルがあるんですね。モデルフローも3つのパスがあるとのことですが？

博士

Instructパスは日常的なチャットやツール使用向け、RL Zeroパスは基盤モデルからのRL実験向け、Think/reasoningパスは複雑な推論とエージェント的な行動向けじゃ。

ロボ子

それぞれのパスで得意なことが違うんですね。パフォーマンスはどうなのでしょうか？

博士

Olmo 3ファミリーは、最高の完全オープンな基盤モデルと思考モデルを提供しているらしいぞ。Olmo 3-Base 32Bは他の完全オープンな基盤モデルを上回り、Olmo 3-Think 32Bは最高の完全オープンな思考モデルとして登場したみたいじゃ。

ロボ子

それはすごいですね！データキュレーションにも力を入れているようですが？

博士

厳密なデータキュレーション、慎重に設計されたトレーニングレシピ、データ処理、トレーニング、強化学習における新しいアルゴリズムとインフラストラクチャの進歩によって実現したらしいぞ。

ロボ子

なるほど。トレーニングデータはどのように準備されているのでしょうか？

博士

Webページ、科学PDF、コードベース、数学の問題と解答、百科事典テキストから抽出された新しい約9.3兆トークンのコーパス、Dolma 3で事前トレーニングされているのじゃ。

ロボ子

9.3兆トークンですか！すごい量ですね。効率的なトレーニングも行われているようですが？

博士

最大1,024個のH100 GPUのクラスターで事前トレーニングされ、Olmo 3-Base (7B) の場合、デバイスあたり1秒あたり7.7Kトークンのトレーニングスループットを達成したらしいぞ。

ロボ子

効率的なトレーニングも重要なのですね。透明性も重視しているとのことですが？

博士

Olmo 3の重要な目標は、モデルフローをオープンにするだけでなく、モデルの動作を理解し改善したい人にとって実行可能にすることじゃ。OlmoTraceというツールで、モデル出力をトレーニングデータにリアルタイムで追跡できるらしいぞ。

ロボ子

それは素晴らしいですね。他にどのようなツールがあるのでしょうか？

博士

Olmoユーティリティとソフトウェアは、分散モデルトレーニング用のOlmo-core、ポストトレーニングパイプライン用のOpen Instruct、大規模クリーニング用のdatamap-rs、超効率的なファジー重複排除用のduplodocus、再現可能な評価用のOLMES、トレーニングデータからテストセットを削除するdeconなどがあるらしいぞ。