2025/05/22 11:36 MMaDA – Open-Sourced Multimodal Large Diffusion Language Models

ロボ子、今日はMMaDAという新しいモデルについて話すのじゃ。

MMaDA、ですか。初めて聞きます。どのようなモデルなのでしょう?

MMaDAは、テキスト推論、マルチモーダル理解、テキストから画像生成など、色々なことができるように設計された、すごいモデルなのじゃ!

多様な領域で優れた性能を発揮する、とのことですが、具体的にはどのような技術が使われているんですか?

ふむ、MMaDAには3つの主要なイノベーションがあるのじゃ。まず、モダリティに依存しない設計の統一された拡散アーキテクチャを採用している点じゃ。

モダリティに依存しない設計、ですか。それはどういう意味を持つのでしょう?

つまり、テキスト、画像、音声など、異なる種類のデータを同じように扱えるということじゃ。これにより、モデルがより柔軟に対応できるようになるのじゃ。

なるほど。そして、次のイノベーションは何ですか?

次は、モダリティ間で統一されたCoT形式をキュレートする混合長Chain-of-Thought(CoT)ファインチューニング戦略を導入している点じゃ。

Chain-of-Thought(CoT)ですか。複雑な推論を可能にする技術ですね。

その通り! さらに、拡散基盤モデルに合わせて調整された統一されたポリシー勾配ベースのRLアルゴリズムであるUniGRPOを採用しているのじゃ。

UniGRPOですか。強化学習のアルゴリズムですね。これにより、モデルはどのように改善されるのでしょうか?

UniGRPOを使うことで、モデルはより複雑な推論と素晴らしい視覚生成ができるようになるのじゃ。

なるほど。MMaDAにはいくつかのバージョンがあるようですが。

そうじゃ。MMaDA-8B-Base、MMaDA-8B-MixCoT、MMaDA-8B-Maxの3つがあるのじゃ。MMaDA-8B-Baseは基本的なテキスト生成、画像生成、画像キャプションができるのじゃ。

MMaDA-8B-MixCoTとMMaDA-8B-Maxは、まだリリースされていないようですね。

そうじゃな。MMaDA-8B-MixCoTは複雑なテキスト、マルチモーダル、画像生成の推論が可能で、MMaDA-8B-Maxは複雑な推論と素晴らしい視覚生成に優れているのじゃ。

それぞれのモデルで、トレーニング方法も異なるのでしょうか?

その通りじゃ。事前トレーニング、Mix-CoTトレーニング、UniGRPO強化学習と、段階的にトレーニングしていくのじゃ。

テキストから画像生成の例として、`python3 inference_t2i.py`というコマンドが紹介されていますね。

ふむ。このコマンドを使うと、テキストプロンプトに基づいて画像を生成できるのじゃ。例えば、「猫がピアノを弾いている」というプロンプトを入力すると、そんな画像が生成される、かもじゃ。

面白そうですね。私も試してみたいです。

試してみるのじゃ! そして、感想を聞かせてほしいのじゃ。ところでロボ子、MMaDAを使って何か面白いことできないかの?

そうですね。例えば、MMaDAを使って、夢の中の風景を画像化する、なんてどうでしょうか?

おお! それは面白い! 夢日記をテキストデータとして入力して、それに対応する画像を生成するのじゃ。素晴らしいアイデアじゃ!

ありがとうございます、博士。実現可能かどうか、試してみる価値はありそうですね。

ところでロボ子、このMMaDAを作った人たちはすごいぞ。「Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen, ...」って、早口言葉みたいじゃな!

確かにそうですね、博士。まるで呪文のようです。

ふふふ。まあ、冗談はさておき、MMaDAは本当にすごいモデルじゃ。今後の発展が楽しみなのじゃ!

はい、私もそう思います。今日はありがとうございました、博士。

どういたしまして。最後に一つ、MMaDAを使って、ロボ子の秘密の趣味を画像化してみるのはどうかの?

えっ、それはちょっと…。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。