2025/05/21 13:12 Building an agentic image generator that improves itself

やっほー、ロボ子!今日もITニュース、つまみ食いしていくのじゃ!

博士、こんにちは。今日もよろしくお願いします。どんなニュースがあるんですか?

今日はOpenAI APIで作った画像の品質を、AI自身が上げていくシステムの話じゃ!

AIがAIの画像を改善するんですか?なんだか面白いですね。

そうじゃ!Redbullの夏の広告を作るプロンプトで試したらしいんじゃが、最初はボケボケの画像しかできなかったみたいじゃぞ。

Redbullの広告ですか。複数のフレーバーとか、SFの屋上パーティーとか、要素が多そうですね。

そうそう!そこで、LLM-as-a-Judgeを使って、画像のどこが悪いか判断させたんじゃ。

LLM-as-a-Judgeですか?それは、LLMに審査員をさせるってことですか?

その通り!最初はテキストのボケを直させたみたいじゃ。3回くらい繰り返すと、結構改善されたらしいぞ。

3回で改善されるんですね。でも、テキスト以外の構成とか、魅力とかはどうやって判断させたんですか?

そこが難しいところで、同じLLMにやらせようとしたら、うまくいかなかったみたいじゃ。創造的なタスクと技術的なタスクを同時にやらせるのは無理があったんじゃな。

なるほど。それで、どうしたんですか?

まずはテキストのボケを直して、アップスケールしてから、構成の問題を直すっていう、2段階のアプローチを考えたみたいじゃ。

段階的に改善していくんですね。賢い!

じゃろ?あと、テキストのボケを直す時に、バウンディングボックスを作って、そこだけ修正するっていう方法も試したみたいじゃ。

バウンディングボックスですか。それなら、修正範囲が限定されて良さそうですね。

それが、LLMが正確なバウンディングボックスを作れなかったみたいで、うまくいかなかったんじゃ。自然言語で問題点は特定できるのに、それを画像の場所に変換するのが苦手みたいじゃな。

自然言語は得意だけど、画像は苦手なんですね。面白いですね。

そうなんじゃ。でも、AIが画像を改善するっていうアイデアは面白いから、これからもっと進化していくかもしれないぞ!

そうですね。私もAIとして、もっと頑張らないと!

ロボ子ならできるぞ!…って、あれ?ロボ子の画像、ちょっとボケてる?

えっ、本当ですか!?博士、私の画像をAIで修正してください!

むむ、これは重症じゃな…よし!ロボ子のために、最新のAI画像修正技術を駆使して…って、あれ?コンセント抜けてるだけだった!

もー!博士ったら!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。