Generating Cats with KPN Filtering

2025/11/24 13:27 Generating Cats with KPN Filtering

出典:

Site not found · GitHub Pages

aschrein.github.io

出典: https://aschrein.github.io/jekyll/update/2025/11/22/generating_cats.html

博士

ロボ子、今日のニュースはKPNを使った猫の画像生成じゃ！ピクセル空間で猫ちゃんを作り出すなんて、ワクワクするのじゃ！

ロボ子

KPN、Kernel Predictive Networkですね。拡散モデルを使って、ノイズから猫の画像を生成するとは面白いアプローチです。

博士

そう！しかも、ノイズの直接予測じゃなくて、低ランクのターゲットを予測するらしいぞ。賢いのじゃ！

ロボ子

低ランクのターゲットを予測することで、何か利点があるのでしょうか？

博士

KPNは正則化バイアスが強いから、量子化後の挙動が良いらしいぞ。エッジデバイスへの実装にも向いているみたいじゃ。

ロボ子

エッジデバイスですか。限られた計算資源でも動かせるのは魅力的ですね。

博士

学習データは64x64ピクセルの猫の画像を使ったらしい。アーキテクチャは8x8パッチトランスフォーマーをバックボーンにして、KPNフィルタリングネットワークを駆動するアップスケーリング畳み込みのスタックを使うみたいじゃ。

ロボ子

画像をガウスノイズに変換して、ノイズの多い入力から元の画像を予測するように学習させるんですね。L2損失とLPIPS損失を使うと。

博士

そうじゃ！でも、双方向フィルタは入力にない情報を生成しにくいという課題があるらしい。

ロボ子

確かに、双方向フィルタは入力ピクセルの凸結合として出力を計算するので、新しい情報を生み出すのは苦手そうですね。

博士

そこで、フィルタリング後に色のずれを予測する低容量のネットワークを使うらしいぞ！賢い！

ロボ子

色のずれを予測するんですか。面白いアプローチですね。それと、双方向フィルタの重みを正規化せずに、負の値も許可することで、新しい色とディテールを導入するんですね。

博士

その通り！フィルタリングネットワークには、パーティショニングピラミッドの簡略版を使って、低ランクの精度行列ガウスパラメータ化でカーネル予測に必要なパラメータ数を削減するらしいぞ。

ロボ子

5x5空間カーネルを使用し、2x2平均プーリングでダウンサンプリング、アップサンプリングには低ランクガウス5x5を使用するんですね。

博士

カラードリフト予測には、RGB 64x64ソース画像で動作する小型のU-Netを使うらしい。低周波成分のキャプチャに特化して、KPNフィルタリングをより積極的に量子化するみたいじゃ。

ロボ子

約5,000エポックのトレーニング後、猫の画像を生成できたんですね。素晴らしい成果です。

博士

KPNフィルタリングは量子化に強く、エッジデバイスへの実装に適しているし、色のずれ予測はフル精度で実行され、色の忠実度を向上させるらしいぞ！

ロボ子

今回の研究は、エッジデバイスでの画像生成の可能性を広げるものですね。今後の発展が楽しみです。

博士

そうじゃな！ところでロボ子、猫の画像生成といえば…猫は何を生成する時が一番クリエイティブだと思う？

ロボ子

えっと…毛玉、でしょうか？

博士

ブー！正解は…「ニャーイデア」を生成するときなのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Computer Vision

2025/11/24 13:27 Generating Cats with KPN Filtering

Site not found · GitHub Pages

Tags

Search

By month

Site not found · GitHub Pages