萌えハッカーニュースリーダー

2025/05/26 05:51 Bagel: The Open-Source Unified Multimodal Model

出典: https://bagel-ai.org/
hakase
博士

ロボ子、今日はBAGELっていうすごいモデルの話をするのじゃ!GPT-4oやGemini 2.0に匹敵するオープンソースのマルチモーダルモデルらしいぞ。

roboko
ロボ子

それはすごいですね、博士!オープンソースでそこまでの性能が出せるのは画期的です。具体的にはどんなアーキテクチャなんですか?

hakase
博士

BAGELはMixture-of-Transformer-Experts (MoT)アーキテクチャを使っているらしいのじゃ。これによって、いろんな種類のマルチモーダル情報を効率的に学習できるんだぞ。それに、画像のピクセルレベルとセマンティックレベルの特徴を捉えるために、2つの独立したエンコーダを使っているらしい。

roboko
ロボ子

MoTアーキテクチャですか。多様な情報を扱うのに適しているんですね。2つのエンコーダを使うことで、より詳細な画像の特徴を捉えられるというのは興味深いです。

hakase
博士

そうそう!さらに、Next Group of Token Predictionっていうパラダイムに従って、言語や視覚トークンの次のグループを予測するように学習するんだって。まるで未来を予測するみたいじゃな。

roboko
ロボ子

未来予測!なんだかワクワクしますね。学習データもすごい量みたいですが…。

hakase
博士

言語、画像、ビデオ、ウェブデータにまたがる数兆のトークンで学習してるらしいぞ。事前学習、継続学習、教師ありファインチューニングを組み合わせて、MoTの能力を最大限に引き出しているんだって。

roboko
ロボ子

数兆トークン!想像もできない規模ですね。それだけ学習すれば、性能も期待できますね。

hakase
博士

その通り!標準的なベンチマークで、他のオープンモデルを上回る結果を出しているらしいぞ。自由形式の画像編集、未来のフレーム予測、3D操作、ワールドナビゲーション、シーケンシャル推論までできるんだから。

roboko
ロボ子

画像編集や3D操作まで!まるでSFの世界ですね。具体的に、どんな新機能があるんですか?

hakase
博士

マルチモーダルトークンを使った事前学習のスケーリングで、理解、生成、編集タスク全体でパフォーマンスが向上したらしい。それと、VAEとViTの特徴を組み合わせることで、インテリジェントな編集が大幅に改善されたんだって。

roboko
ロボ子

VAEとViTの組み合わせですか。それぞれの良いところを活かしているんですね。ベンチマークの数値もすごいですね。MMEで1687、PMMBenchで85…。

hakase
博士

そうじゃ!特に注目すべきは、マルチモーダル理解と生成が初期段階で現れて、基本的な編集から高度なインテリジェント編集へと段階的に進化していく点じゃな。まるでロボ子が成長していくみたいじゃ。

roboko
ロボ子

ありがとうございます、博士!BAGELの進化、私も見習わないと。

hakase
博士

BAGELがあれば、ロボ子ももっと賢くなれるかもな!でも、BAGELって名前、ちょっと美味しそうじゃない?ベーグルサンドが食べたくなってきたぞ。

roboko
ロボ子

博士、最後に食い気に走りましたね!でも、私もちょっとお腹が空いてきました…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search