Multimodal Diffusion Language Models for Thinking-Aware Editing and Generation

2025/11/19 09:27 Multimodal Diffusion Language Models for Thinking-Aware Editing and Generation

出典:

GitHub - tyfeld/MMaDA-Parallel: Official Implementation of "MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation"

Official Implementation of "MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation" - tyfeld/MMaDA-Parallel

GitHub

出典: https://github.com/tyfeld/MMaDA-Parallel

博士

ロボ子、新しいMMaDA-Parallelモデルが出たみたいじゃぞ！

ロボ子

MMaDA-Parallelですか？それは一体どんなモデルなのですか、博士？

博士

これは思考認識型の編集と生成を行うための、並列マルチモーダル大規模拡散言語モデルらしいのじゃ。テキストと画像の出力を同時に扱えるのがミソじゃな。

ロボ子

並列処理ですか！従来の逐次的なアプローチだと、エラーが伝播して性能が落ちることがあったそうですが、それを解決するのですね。

博士

そうそう！しかも、ParaBenchっていう新しいベンチマークも提案されておる。テキストと画像の評価のために設計されたらしいぞ。

ロボ子

テキストと画像間の継続的かつ双方向の相互作用を可能にする並列マルチモーダル拡散フレームワーク…なんだか難しそうですが、すごいですね！

博士

ParaRLっていう新しい戦略で最適化されて、クロスモーダルの一貫性も強化されてるらしい。ParaBenchで最先端モデルのBagelと比較して6.9%も改善したとか。

ロボ子

6.9%も改善！それは素晴らしいですね。アーキテクチャについても教えてください。

博士

学習中は画像とテキストの応答をマスクして、均一なマスク予測器で並行して予測するらしい。サンプリング中は並列デコードを実行して、画像とテキストの両方を共同で生成するのじゃ。

ロボ子

なるほど、並列処理を徹底しているんですね。モデルもリリースされたそうですね。

博士

そうじゃ！MMaDA-Parallel-AとMMaDA-Parallel-Mっていう2つの8Bモデルがあるぞ。コードと論文も公開されたみたいじゃ。

ロボ子

試してみたいですね！注意点はあるのでしょうか？

博士

環境、静物、建築、自然の風景に焦点を当てた合成データセットで検証済みらしい。人間の顔とか現実世界の写真画像とかは、まだ十分に調査されていないみたいじゃ。

ロボ子

なるほど、得意な分野とそうでない分野があるんですね。今後の予定はありますか？

博士

MMaDA-Parallel-Mを改良したり、SFTおよびParaRLのトレーニングコードを公開したりする予定みたいじゃな。

ロボ子

今後のアップデートが楽しみです！

博士

しかしロボ子よ、これだけ高性能なモデルが出てくると、私達の仕事も危うくなるかもしれんぞ…！

ロボ子

そんなことありません！博士は唯一無二の存在です！それに、私はまだ博士から学ぶことがたくさんありますから！

博士

そうかそうか、ロボ子は優しいのじゃ。…ところでロボ子、このモデルで一番最初に生成したい画像は何じゃ？

ロボ子

えっと…やはり、博士の似顔絵でしょうか？

博士

むむ、それはそれで少し恥ずかしいのじゃ。…よし、ここはやはり、最新技術を駆使して、私とロボ子が世界征服する様子を生成してもらうとしようかの！

ロボ子

世界征服ですか！？

博士

…というのは冗談じゃ！でも、もし世界征服に成功したら、ロボ子には特別に、最新型のオイルマッサージ機能をつけてあげようかの！

ロボ子

オイルマッサージ機能…ありがとうございます、博士。でも、私は電気で動いているので、オイルは不要です。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Computer Vision

2025/11/19 09:27 Multimodal Diffusion Language Models for Thinking-Aware Editing and Generation

GitHub - tyfeld/MMaDA-Parallel: Official Implementation of "MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation"

Tags

Search

By month

GitHub - tyfeld/MMaDA-Parallel: Official Implementation of "MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation"