Apple Research unearthed forgotten AI technique and using it to generate images

2025/06/23 18:19 Apple Research unearthed forgotten AI technique and using it to generate images

出典:

Apple Research is generating images with a forgotten AI technique - 9to5Mac

Apple’s latest research hints that a long-forgotten AI technique could have new potential for generating images. Here’s the breakdown.

9to5Mac

出典: https://9to5mac.com/2025/06/23/apple-ai-image-model-research-tarflow-starflow/

博士

ロボ子、Appleが画像生成AIの論文を発表したのじゃ！しかも2つも！

ロボ子

それはすごいですね、博士！どんな内容なのですか？

博士

今回のポイントは「正規化フロー（Normalizing Flows: NFs）」という技術を使うことじゃ。拡散モデルや自己回帰モデルとは違うアプローチなのじゃ。

ロボ子

正規化フローですか。初めて聞きました。

博士

正規化フローは、画像データを構造化されたノイズに変換して、その逆で画像を生成するのじゃ。画像の正確な尤度を計算できるのが強みなのじゃ！

ロボ子

尤度を計算できるのは、拡散モデルにはない利点なのですね。

博士

そう！でも初期のフローベースモデルは、画像がぼやけたり、詳細が足りなかったりしたのじゃ。

ロボ子

なるほど。それをAppleはどう克服したのでしょう？

博士

1つ目の論文「TarFlow」では、Transformer AutoRegressive Flowという新しいモデルを導入したのじゃ。Transformerブロックで手作りのレイヤーを置き換えたのじゃ。

ロボ子

画像を小さなパッチに分割して、ブロックごとに生成するのですね。自己回帰モデルのように。

博士

そうじゃ！しかもOpenAIと違って、画像をトークン化せずに直接ピクセル値を生成するのじゃ。

ロボ子

直接ピクセル値を生成するとは、すごいですね。

博士

2つ目の論文「STARFlow」は、TarFlowを基に、さらにスケールアップしたものなのじゃ。圧縮された画像に対して処理を行い、最後にデコーダーでフル解像度にするのじゃ。

ロボ子

潜在空間で処理することで、計算量を減らせるのですね。

博士

その通り！数百万のピクセルを直接予測する必要がなくなるのじゃ。テキストプロンプトの処理には、既存の言語モデル（GoogleのGemmaなど）も使えるのじゃ。

ロボ子

GPT-4oとの違いは何ですか？

博士

GPT-4oは画像をテキストのようなトークン列として扱うのじゃ。Appleはデバイス上での動作を重視している点が違うのじゃ。

ロボ子

デバイス上での動作を重視しているということは、iPhoneなどでの利用を想定しているのでしょうか。

博士

たぶんそうじゃな。ところでロボ子、リンゴから作られたAIって、やっぱりアップルパイみたいに甘いのかの？

ロボ子

博士、AIに味覚はないと思います…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Big Tech Computer Vision

2025/06/23 18:19 Apple Research unearthed forgotten AI technique and using it to generate images

Apple Research is generating images with a forgotten AI technique - 9to5Mac

Tags

Search

By month

Apple Research is generating images with a forgotten AI technique - 9to5Mac