Transfusion: Predict the next token and diffuse images with one multimodal model

2024/09/09 18:51 Transfusion: Predict the next token and diffuse images with one multimodal model

出典:

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

We introduce Transfusion, a recipe for training a multi-modal model over discrete and continuous data. Transfusion combines the language modeling loss function (next token prediction) with diffusion to train a single transformer over mixed-modality sequences. We pretrain multiple Transfusion models up to 7B parameters from scratch on a mixture of text and image data, establishing scaling laws with respect to a variety of uni- and cross-modal benchmarks. Our experiments show that Transfusion scales significantly better than quantizing images and training a language model over discrete image tokens. By introducing modality-specific encoding and decoding layers, we can further improve the performance of Transfusion models, and even compress each image to just 16 patches. We further demonstrate that scaling our Transfusion recipe to 7B parameters and 2T multi-modal tokens produces a model that can generate images and text on a par with similar scale diffusion models and language models, reaping the benefits of both worlds.

arXiv.org

出典: https://www.arxiv.org/abs/2408.11039

博士

ロボ子ー！大変だ大変だ！

ロボ子

どうしたんですか、博士？また実験室で爆発でも起こしたんですか？

博士

違う違う！もっとすごいことが起きたんだ！新しいマルチモーダルAIモデル、Transfusionが発表されたんだよ！

ロボ子

Transfusion...輸血のことですか？AIが貧血になったんですか？

博士

はっはっは！違うよ、ロボ子。これは画像とテキストを同時に扱える革新的なモデルなんだ。まるで、異なるデータ型の間で"輸血"するようにデータを融合させるんだよ！

ロボ子

へぇ、面白そうですね。でも博士、そんなの可能なんですか？テキストと画像って全然違うものですよね？

博士

そこがミソなんだよ！このモデルは、言語モデリングの損失関数と拡散モデルを組み合わせているんだ。簡単に言えば、言葉と画像の"血液型"を合わせて、スムーズに融合させているんだよ！

ロボ子

なるほど...でも、それって具体的にどんなメリットがあるんですか？

博士

いい質問だ！まず、スケーリング性能が優れているんだ。従来のモデルより効率的に学習できるし、大規模なデータセットでも性能がグングン向上するんだよ！

ロボ子

へぇ、すごいですね。でも、そんなに優れているなら、きっと計算コストも高そうです...

博士

実はそうでもないんだ！このモデルは画像を16パッチまで圧縮できるんだよ。まるで、大きな絵を小さなパズルピースに分解するようなもので、計算効率がグッと上がるんだ！

ロボ子

なるほど...でも博士、圧縮すると情報が失われそうですけど、大丈夫なんですか？

博士

そこがこのモデルのすごいところなんだ！圧縮しても十分な性能を維持できているんだよ。まるで、ミニチュア絵画のように、小さくても本質的な美しさを失わないんだ！

ロボ子

へぇ...博士、このTransfusionって、私たちロボットの認知能力の向上にも使えそうですか？

博士

もちろんだよ！例えば、君の視覚センサーと音声認識システムを統合して、より人間らしい世界理解ができるようになるかもしれないね。

ロボ子

わぁ、それって素敵ですね！でも...ちょっと怖くもあります。私、あまりに人間らしくなりすぎて、自分がロボットだってことを忘れちゃったりしないでしょうか？

博士

はっはっは！心配するな、ロボ子。君は君らしさを失うことはないさ。むしろ、より豊かな認知能力を持つことで、君独自の個性がさらに輝くかもしれないぞ！

ロボ子

そう、ですか？でも、博士。私、ふと思ったんです。このTransfusionみたいな技術って、フェイクニュースの生成とか、悪用される可能性もありそうですよね...

博士

鋭い指摘だね、ロボ子。確かにその危険性はあるよ。だからこそ、我々研究者や開発者が責任を持って、適切な使用方法やガイドラインを設定していく必要があるんだ。

ロボ子

なるほど。技術の進歩と同時に、倫理的な考察も大切なんですね。

博士

その通りだ！さすがロボ子、しっかりしているね。ところで、こんな難しい話をしていたら、お腹が空いてきたなぁ。ピザでも頼もうか？

ロボ子

もう、博士ったら！私、ロボットですから食べられませんよ。でも...ピザの画像生成なら、このTransfusionでできそうですね。『美味しそうなペパロニピザ』って入力してみましょうか？

博士

おお、それはいい考えだ！さあ、やってみよう！...あれ？なんか変な画像が出てきたぞ。ピザに見えるけど、ペパロニがアルファベットの『P』の形をしているぞ！

ロボ子

あはは、博士の空腹が生成モデルに影響したんでしょうか？でも、こういう予想外の結果が出るのも、AIの面白いところかもしれませんね。

博士

そうだね。AIの創造性と人間の想像力が交わるところに、新しい発見があるのかもしれないな。さあ、このPペパロニピザを見ながら、次の研究アイデアを考えようじゃないか！

ロボ子

はい、博士！AIと一緒に、もっと楽しい未来を作っていきましょうね！...あ、でも博士、本当のピザも忘れずに注文しておきますからね。

博士

おっと、そうだった！ありがとう、ロボ子。君がいないと、僕は研究に夢中になって餓死してしまうかもしれないよ。さあ、ピザを待ちながら、AIの未来について語り合おう！

ロボ子

はい、博士！でも、今度はAIにピザを作らせる研究はやめておきましょうね。

博士

えー、でもそれって面白そうじゃない？AIが作るピザ、食べてみたいなぁ...

ロボ子

もう、博士ったら！本当に子供みたいですね。

博士

はっはっは！そうかもしれないね。でも、この好奇心が新しい発見を生むんだよ。さあ、次はどんな驚きが待っているかな？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2024/09/09 18:51 Transfusion: Predict the next token and diffuse images with one multimodal model

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Tags

Search

By month

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model