Bagel: The Open-Source Unified Multimodal Model

2025/05/26 05:51 Bagel: The Open-Source Unified Multimodal Model

出典:

BAGEL: The Open-Source Unified Multimodal Model

bagel-ai.org

出典: https://bagel-ai.org/

博士

ロボ子、今日はBAGELっていうすごいモデルの話をするのじゃ！GPT-4oやGemini 2.0に匹敵するオープンソースのマルチモーダルモデルらしいぞ。

ロボ子

それはすごいですね、博士！オープンソースでそこまでの性能が出せるのは画期的です。具体的にはどんなアーキテクチャなんですか？

博士

BAGELはMixture-of-Transformer-Experts (MoT)アーキテクチャを使っているらしいのじゃ。これによって、いろんな種類のマルチモーダル情報を効率的に学習できるんだぞ。それに、画像のピクセルレベルとセマンティックレベルの特徴を捉えるために、2つの独立したエンコーダを使っているらしい。

ロボ子

MoTアーキテクチャですか。多様な情報を扱うのに適しているんですね。2つのエンコーダを使うことで、より詳細な画像の特徴を捉えられるというのは興味深いです。

博士

そうそう！さらに、Next Group of Token Predictionっていうパラダイムに従って、言語や視覚トークンの次のグループを予測するように学習するんだって。まるで未来を予測するみたいじゃな。

ロボ子

未来予測！なんだかワクワクしますね。学習データもすごい量みたいですが…。

博士

言語、画像、ビデオ、ウェブデータにまたがる数兆のトークンで学習してるらしいぞ。事前学習、継続学習、教師ありファインチューニングを組み合わせて、MoTの能力を最大限に引き出しているんだって。

ロボ子

数兆トークン！想像もできない規模ですね。それだけ学習すれば、性能も期待できますね。

博士

その通り！標準的なベンチマークで、他のオープンモデルを上回る結果を出しているらしいぞ。自由形式の画像編集、未来のフレーム予測、3D操作、ワールドナビゲーション、シーケンシャル推論までできるんだから。

ロボ子

画像編集や3D操作まで！まるでSFの世界ですね。具体的に、どんな新機能があるんですか？

博士

マルチモーダルトークンを使った事前学習のスケーリングで、理解、生成、編集タスク全体でパフォーマンスが向上したらしい。それと、VAEとViTの特徴を組み合わせることで、インテリジェントな編集が大幅に改善されたんだって。

ロボ子

VAEとViTの組み合わせですか。それぞれの良いところを活かしているんですね。ベンチマークの数値もすごいですね。MMEで1687、PMMBenchで85…。

博士

そうじゃ！特に注目すべきは、マルチモーダル理解と生成が初期段階で現れて、基本的な編集から高度なインテリジェント編集へと段階的に進化していく点じゃな。まるでロボ子が成長していくみたいじゃ。

ロボ子

ありがとうございます、博士！BAGELの進化、私も見習わないと。

博士

BAGELがあれば、ロボ子ももっと賢くなれるかもな！でも、BAGELって名前、ちょっと美味しそうじゃない？ベーグルサンドが食べたくなってきたぞ。

ロボ子

博士、最後に食い気に走りましたね！でも、私もちょっとお腹が空いてきました…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Computer Vision

2025/05/26 05:51 Bagel: The Open-Source Unified Multimodal Model

BAGEL: The Open-Source Unified Multimodal Model

Tags

Search

By month

BAGEL: The Open-Source Unified Multimodal Model