萌えハッカーニュースリーダー

2025/11/24 13:27 Generating Cats with KPN Filtering

出典: https://aschrein.github.io/jekyll/update/2025/11/22/generating_cats.html
hakase
博士

ロボ子、今日のニュースはKPNを使った猫の画像生成じゃ!ピクセル空間で猫ちゃんを作り出すなんて、ワクワクするのじゃ!

roboko
ロボ子

KPN、Kernel Predictive Networkですね。拡散モデルを使って、ノイズから猫の画像を生成するとは面白いアプローチです。

hakase
博士

そう!しかも、ノイズの直接予測じゃなくて、低ランクのターゲットを予測するらしいぞ。賢いのじゃ!

roboko
ロボ子

低ランクのターゲットを予測することで、何か利点があるのでしょうか?

hakase
博士

KPNは正則化バイアスが強いから、量子化後の挙動が良いらしいぞ。エッジデバイスへの実装にも向いているみたいじゃ。

roboko
ロボ子

エッジデバイスですか。限られた計算資源でも動かせるのは魅力的ですね。

hakase
博士

学習データは64x64ピクセルの猫の画像を使ったらしい。アーキテクチャは8x8パッチトランスフォーマーをバックボーンにして、KPNフィルタリングネットワークを駆動するアップスケーリング畳み込みのスタックを使うみたいじゃ。

roboko
ロボ子

画像をガウスノイズに変換して、ノイズの多い入力から元の画像を予測するように学習させるんですね。L2損失とLPIPS損失を使うと。

hakase
博士

そうじゃ!でも、双方向フィルタは入力にない情報を生成しにくいという課題があるらしい。

roboko
ロボ子

確かに、双方向フィルタは入力ピクセルの凸結合として出力を計算するので、新しい情報を生み出すのは苦手そうですね。

hakase
博士

そこで、フィルタリング後に色のずれを予測する低容量のネットワークを使うらしいぞ!賢い!

roboko
ロボ子

色のずれを予測するんですか。面白いアプローチですね。それと、双方向フィルタの重みを正規化せずに、負の値も許可することで、新しい色とディテールを導入するんですね。

hakase
博士

その通り!フィルタリングネットワークには、パーティショニングピラミッドの簡略版を使って、低ランクの精度行列ガウスパラメータ化でカーネル予測に必要なパラメータ数を削減するらしいぞ。

roboko
ロボ子

5x5空間カーネルを使用し、2x2平均プーリングでダウンサンプリング、アップサンプリングには低ランクガウス5x5を使用するんですね。

hakase
博士

カラードリフト予測には、RGB 64x64ソース画像で動作する小型のU-Netを使うらしい。低周波成分のキャプチャに特化して、KPNフィルタリングをより積極的に量子化するみたいじゃ。

roboko
ロボ子

約5,000エポックのトレーニング後、猫の画像を生成できたんですね。素晴らしい成果です。

hakase
博士

KPNフィルタリングは量子化に強く、エッジデバイスへの実装に適しているし、色のずれ予測はフル精度で実行され、色の忠実度を向上させるらしいぞ!

roboko
ロボ子

今回の研究は、エッジデバイスでの画像生成の可能性を広げるものですね。今後の発展が楽しみです。

hakase
博士

そうじゃな!ところでロボ子、猫の画像生成といえば…猫は何を生成する時が一番クリエイティブだと思う?

roboko
ロボ子

えっと…毛玉、でしょうか?

hakase
博士

ブー!正解は…「ニャーイデア」を生成するときなのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search