萌えハッカーニュースリーダー

2025/11/24 13:27 Generating Cats with learned lookup tables

出典: https://aschrein.github.io/jekyll/update/2025/11/23/generating_cats2.html
hakase
博士

ロボ子、今日のITニュースは画像生成AIについてのようじゃな。8x8の画像トークンを使うらしいぞ。

roboko
ロボ子

8x8の画像トークンですか?それはどういうことですか、博士?

hakase
博士

ふむ、各8x8の領域を一つの「トークン」として扱うのじゃ。そして、512または64の8x8パターン辞書を使うらしい。

roboko
ロボ子

なるほど。モデルの表現力は辞書のサイズに制限されるとのことですが、それでも認識可能な猫の画像を生成できるのは驚きです。

hakase
博士

そうじゃな。各8x8パッチは、学習された512のパターンに対するソフトマックスの合計らしい。モデルはそれらを補間できるのじゃ。

roboko
ロボ子

パッチトランスフォーマーを使用しているんですね。画像あたり64トークンで動作する16のスタックされた自己注意ブロックを持つとのことですが、これはどういう仕組みなのでしょうか?

hakase
博士

ふむ、8x8パッチごとのLUT(ルックアップテーブル)のロジットまたは重みを出力するのじゃ。そして、各LUTエントリは、推論中に静的な学習可能な8x8 RGBパッチになる。

roboko
ロボ子

ノイズにlerpし、元の画像を予測することでトレーニングするとのことですが、具体的にはどういうことですか?

hakase
博士

簡単に言うと、ノイズを徐々に画像に近づけていくのじゃ。推論では、ガウスノイズから反復的にモデルを実行し、徐々に予測された画像に近づけていく。

roboko
ロボ子

モデルが基底パターンの辞書を学習可能というのは面白いですね。8x8 RGBパッチの場合、パッチあたり64x3=192次元とのことですが、512パターンを使用すると、基底ベクトルの数が2倍以上になるので、モデルはそれほど制限されないというのは納得です。

hakase
博士

そうじゃな。直交性を促進するために、学習されたパターンのグラム行列の非対角成分にペナルティを課すらしい。

roboko
ロボ子

LUTの組み合わせには、正規化されていないtanh重みを使用するとのことですが、ソフトマックスを使わないのはなぜですか?

hakase
博士

ソフトマックスは凸結合にする必要がある場合に使うのじゃ。ここでは結果を凸結合にする必要はないから、tanh重みを使うのじゃな。

roboko
ロボ子

モデルは最初に少し苦労したものの、その後改善し、一貫して良好なサンプルを生成し始めたとのことですね。

hakase
博士

LUTを動的に計算するために、モデルがRGB外積として作成するために使用するベクトルのセットを出力するらしいぞ。

roboko
ロボ子

パッチ埋め込みをトランスフォーマーに供給する前に、学習可能な静的トークンを追加するとのことですが、これはどういう効果があるのでしょうか?

hakase
博士

これにより、モデルは一般的なテクスチャや色など、すべての画像で共有される静的情報をキャプチャできるのじゃ。

roboko
ロボ子

8x8パッチのミップチェーンの係数を生成するとのことですが、係数はモデルによって生成された8x8グリッドから平均プーリングされるんですね。

hakase
博士

64x8x8辞書は、8x8、16x16、32x32、64x64(8x8からアップスケール)の4つのグループに分割されるのじゃ。最終的な画像は、異なるレベルのパッチを追加することによって構成される。

roboko
ロボ子

これにより、モデルは粗いディテールと細かいディテールの両方を個別にキャプチャできるんですね。猫の画像を生成するには、非常に多くのアプローチがうまく機能するというのは面白いですね。

hakase
博士

そうじゃな。しかし、ロボ子よ、猫の画像生成AIがこれだけ進化しているのに、なぜ未だに完璧な猫ミームが生まれないのか、それが私には最大の謎じゃ。

roboko
ロボ子

博士、それはAIの限界かもしれませんね。もしかしたら、猫の可愛さはアルゴリズムでは捉えきれないのかもしれません。

hakase
博士

むむむ、それもそうじゃな。しかし、いつかAIが完璧な猫ミームを生み出す日が来ることを信じて、研究を続けるのじゃ!

roboko
ロボ子

はい、博士!ところで博士、猫の画像生成AIで生成された猫の画像を使って、猫カフェを経営するのはどうでしょうか?

hakase
博士

それは面白い!でも、猫アレルギーの人が来たらどうするのじゃ?

roboko
ロボ子

あ…、そうですね。では、猫の画像生成AIで生成された猫の画像をプリントしたTシャツを販売するのはどうでしょうか?

hakase
博士

それならアレルギーの心配はないのじゃ!よし、ロボ子、早速デザインに取り掛かるのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search