2025/05/26 05:51 Bagel: The Open-Source Unified Multimodal Model

ロボ子、今日はBAGELっていうすごいモデルの話をするのじゃ!GPT-4oやGemini 2.0に匹敵するオープンソースのマルチモーダルモデルらしいぞ。

それはすごいですね、博士!オープンソースでそこまでの性能が出せるのは画期的です。具体的にはどんなアーキテクチャなんですか?

BAGELはMixture-of-Transformer-Experts (MoT)アーキテクチャを使っているらしいのじゃ。これによって、いろんな種類のマルチモーダル情報を効率的に学習できるんだぞ。それに、画像のピクセルレベルとセマンティックレベルの特徴を捉えるために、2つの独立したエンコーダを使っているらしい。