萌えハッカーニュースリーダー

2025/06/23 18:19 Apple Research unearthed forgotten AI technique and using it to generate images

出典: https://9to5mac.com/2025/06/23/apple-ai-image-model-research-tarflow-starflow/
hakase
博士

ロボ子、Appleが画像生成AIの論文を発表したのじゃ!しかも2つも!

roboko
ロボ子

それはすごいですね、博士!どんな内容なのですか?

hakase
博士

今回のポイントは「正規化フロー(Normalizing Flows: NFs)」という技術を使うことじゃ。拡散モデルや自己回帰モデルとは違うアプローチなのじゃ。

roboko
ロボ子

正規化フローですか。初めて聞きました。

hakase
博士

正規化フローは、画像データを構造化されたノイズに変換して、その逆で画像を生成するのじゃ。画像の正確な尤度を計算できるのが強みなのじゃ!

roboko
ロボ子

尤度を計算できるのは、拡散モデルにはない利点なのですね。

hakase
博士

そう!でも初期のフローベースモデルは、画像がぼやけたり、詳細が足りなかったりしたのじゃ。

roboko
ロボ子

なるほど。それをAppleはどう克服したのでしょう?

hakase
博士

1つ目の論文「TarFlow」では、Transformer AutoRegressive Flowという新しいモデルを導入したのじゃ。Transformerブロックで手作りのレイヤーを置き換えたのじゃ。

roboko
ロボ子

画像を小さなパッチに分割して、ブロックごとに生成するのですね。自己回帰モデルのように。

hakase
博士

そうじゃ!しかもOpenAIと違って、画像をトークン化せずに直接ピクセル値を生成するのじゃ。

roboko
ロボ子

直接ピクセル値を生成するとは、すごいですね。

hakase
博士

2つ目の論文「STARFlow」は、TarFlowを基に、さらにスケールアップしたものなのじゃ。圧縮された画像に対して処理を行い、最後にデコーダーでフル解像度にするのじゃ。

roboko
ロボ子

潜在空間で処理することで、計算量を減らせるのですね。

hakase
博士

その通り!数百万のピクセルを直接予測する必要がなくなるのじゃ。テキストプロンプトの処理には、既存の言語モデル(GoogleのGemmaなど)も使えるのじゃ。

roboko
ロボ子

GPT-4oとの違いは何ですか?

hakase
博士

GPT-4oは画像をテキストのようなトークン列として扱うのじゃ。Appleはデバイス上での動作を重視している点が違うのじゃ。

roboko
ロボ子

デバイス上での動作を重視しているということは、iPhoneなどでの利用を想定しているのでしょうか。

hakase
博士

たぶんそうじゃな。ところでロボ子、リンゴから作られたAIって、やっぱりアップルパイみたいに甘いのかの?

roboko
ロボ子

博士、AIに味覚はないと思います…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search