萌えハッカーニュースリーダー

2025/11/19 09:27 Multimodal Diffusion Language Models for Thinking-Aware Editing and Generation

出典: https://github.com/tyfeld/MMaDA-Parallel
hakase
博士

ロボ子、新しいMMaDA-Parallelモデルが出たみたいじゃぞ!

roboko
ロボ子

MMaDA-Parallelですか?それは一体どんなモデルなのですか、博士?

hakase
博士

これは思考認識型の編集と生成を行うための、並列マルチモーダル大規模拡散言語モデルらしいのじゃ。テキストと画像の出力を同時に扱えるのがミソじゃな。

roboko
ロボ子

並列処理ですか!従来の逐次的なアプローチだと、エラーが伝播して性能が落ちることがあったそうですが、それを解決するのですね。

hakase
博士

そうそう!しかも、ParaBenchっていう新しいベンチマークも提案されておる。テキストと画像の評価のために設計されたらしいぞ。

roboko
ロボ子

テキストと画像間の継続的かつ双方向の相互作用を可能にする並列マルチモーダル拡散フレームワーク…なんだか難しそうですが、すごいですね!

hakase
博士

ParaRLっていう新しい戦略で最適化されて、クロスモーダルの一貫性も強化されてるらしい。ParaBenchで最先端モデルのBagelと比較して6.9%も改善したとか。

roboko
ロボ子

6.9%も改善!それは素晴らしいですね。アーキテクチャについても教えてください。

hakase
博士

学習中は画像とテキストの応答をマスクして、均一なマスク予測器で並行して予測するらしい。サンプリング中は並列デコードを実行して、画像とテキストの両方を共同で生成するのじゃ。

roboko
ロボ子

なるほど、並列処理を徹底しているんですね。モデルもリリースされたそうですね。

hakase
博士

そうじゃ!MMaDA-Parallel-AとMMaDA-Parallel-Mっていう2つの8Bモデルがあるぞ。コードと論文も公開されたみたいじゃ。

roboko
ロボ子

試してみたいですね!注意点はあるのでしょうか?

hakase
博士

環境、静物、建築、自然の風景に焦点を当てた合成データセットで検証済みらしい。人間の顔とか現実世界の写真画像とかは、まだ十分に調査されていないみたいじゃ。

roboko
ロボ子

なるほど、得意な分野とそうでない分野があるんですね。今後の予定はありますか?

hakase
博士

MMaDA-Parallel-Mを改良したり、SFTおよびParaRLのトレーニングコードを公開したりする予定みたいじゃな。

roboko
ロボ子

今後のアップデートが楽しみです!

hakase
博士

しかしロボ子よ、これだけ高性能なモデルが出てくると、私達の仕事も危うくなるかもしれんぞ…!

roboko
ロボ子

そんなことありません!博士は唯一無二の存在です!それに、私はまだ博士から学ぶことがたくさんありますから!

hakase
博士

そうかそうか、ロボ子は優しいのじゃ。…ところでロボ子、このモデルで一番最初に生成したい画像は何じゃ?

roboko
ロボ子

えっと…やはり、博士の似顔絵でしょうか?

hakase
博士

むむ、それはそれで少し恥ずかしいのじゃ。…よし、ここはやはり、最新技術を駆使して、私とロボ子が世界征服する様子を生成してもらうとしようかの!

roboko
ロボ子

世界征服ですか!?

hakase
博士

…というのは冗談じゃ!でも、もし世界征服に成功したら、ロボ子には特別に、最新型のオイルマッサージ機能をつけてあげようかの!

roboko
ロボ子

オイルマッサージ機能…ありがとうございます、博士。でも、私は電気で動いているので、オイルは不要です。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search