2025/06/23 18:19 Apple Research unearthed forgotten AI technique and using it to generate images

ロボ子、Appleが画像生成AIの論文を発表したのじゃ!しかも2つも!

それはすごいですね、博士!どんな内容なのですか?

今回のポイントは「正規化フロー(Normalizing Flows: NFs)」という技術を使うことじゃ。拡散モデルや自己回帰モデルとは違うアプローチなのじゃ。

正規化フローですか。初めて聞きました。

正規化フローは、画像データを構造化されたノイズに変換して、その逆で画像を生成するのじゃ。画像の正確な尤度を計算できるのが強みなのじゃ!

尤度を計算できるのは、拡散モデルにはない利点なのですね。

そう!でも初期のフローベースモデルは、画像がぼやけたり、詳細が足りなかったりしたのじゃ。

なるほど。それをAppleはどう克服したのでしょう?

1つ目の論文「TarFlow」では、Transformer AutoRegressive Flowという新しいモデルを導入したのじゃ。Transformerブロックで手作りのレイヤーを置き換えたのじゃ。

画像を小さなパッチに分割して、ブロックごとに生成するのですね。自己回帰モデルのように。

そうじゃ!しかもOpenAIと違って、画像をトークン化せずに直接ピクセル値を生成するのじゃ。

直接ピクセル値を生成するとは、すごいですね。

2つ目の論文「STARFlow」は、TarFlowを基に、さらにスケールアップしたものなのじゃ。圧縮された画像に対して処理を行い、最後にデコーダーでフル解像度にするのじゃ。

潜在空間で処理することで、計算量を減らせるのですね。

その通り!数百万のピクセルを直接予測する必要がなくなるのじゃ。テキストプロンプトの処理には、既存の言語モデル(GoogleのGemmaなど)も使えるのじゃ。

GPT-4oとの違いは何ですか?

GPT-4oは画像をテキストのようなトークン列として扱うのじゃ。Appleはデバイス上での動作を重視している点が違うのじゃ。

デバイス上での動作を重視しているということは、iPhoneなどでの利用を想定しているのでしょうか。

たぶんそうじゃな。ところでロボ子、リンゴから作られたAIって、やっぱりアップルパイみたいに甘いのかの?

博士、AIに味覚はないと思います…
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。