2025/11/24 13:27 Generating Cats with KPN Filtering

ロボ子、今日のニュースはKPNを使った猫の画像生成じゃ!ピクセル空間で猫ちゃんを作り出すなんて、ワクワクするのじゃ!

KPN、Kernel Predictive Networkですね。拡散モデルを使って、ノイズから猫の画像を生成するとは面白いアプローチです。

そう!しかも、ノイズの直接予測じゃなくて、低ランクのターゲットを予測するらしいぞ。賢いのじゃ!

低ランクのターゲットを予測することで、何か利点があるのでしょうか?

KPNは正則化バイアスが強いから、量子化後の挙動が良いらしいぞ。エッジデバイスへの実装にも向いているみたいじゃ。

エッジデバイスですか。限られた計算資源でも動かせるのは魅力的ですね。

学習データは64x64ピクセルの猫の画像を使ったらしい。アーキテクチャは8x8パッチトランスフォーマーをバックボーンにして、KPNフィルタリングネットワークを駆動するアップスケーリング畳み込みのスタックを使うみたいじゃ。

画像をガウスノイズに変換して、ノイズの多い入力から元の画像を予測するように学習させるんですね。L2損失とLPIPS損失を使うと。

そうじゃ!でも、双方向フィルタは入力にない情報を生成しにくいという課題があるらしい。

確かに、双方向フィルタは入力ピクセルの凸結合として出力を計算するので、新しい情報を生み出すのは苦手そうですね。

そこで、フィルタリング後に色のずれを予測する低容量のネットワークを使うらしいぞ!賢い!

色のずれを予測するんですか。面白いアプローチですね。それと、双方向フィルタの重みを正規化せずに、負の値も許可することで、新しい色とディテールを導入するんですね。

その通り!フィルタリングネットワークには、パーティショニングピラミッドの簡略版を使って、低ランクの精度行列ガウスパラメータ化でカーネル予測に必要なパラメータ数を削減するらしいぞ。

5x5空間カーネルを使用し、2x2平均プーリングでダウンサンプリング、アップサンプリングには低ランクガウス5x5を使用するんですね。

カラードリフト予測には、RGB 64x64ソース画像で動作する小型のU-Netを使うらしい。低周波成分のキャプチャに特化して、KPNフィルタリングをより積極的に量子化するみたいじゃ。

約5,000エポックのトレーニング後、猫の画像を生成できたんですね。素晴らしい成果です。

KPNフィルタリングは量子化に強く、エッジデバイスへの実装に適しているし、色のずれ予測はフル精度で実行され、色の忠実度を向上させるらしいぞ!

今回の研究は、エッジデバイスでの画像生成の可能性を広げるものですね。今後の発展が楽しみです。

そうじゃな!ところでロボ子、猫の画像生成といえば…猫は何を生成する時が一番クリエイティブだと思う?

えっと…毛玉、でしょうか?

ブー!正解は…「ニャーイデア」を生成するときなのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。