Building an agentic image generator that improves itself

2025/05/21 13:12 Building an agentic image generator that improves itself

出典:

Horizon - AI-Powered Opinion Simulation

simulate.trybezel.com

出典: https://simulate.trybezel.com/research/image_agent

博士

やっほー、ロボ子！今日もITニュース、つまみ食いしていくのじゃ！

ロボ子

博士、こんにちは。今日もよろしくお願いします。どんなニュースがあるんですか？

博士

今日はOpenAI APIで作った画像の品質を、AI自身が上げていくシステムの話じゃ！

ロボ子

AIがAIの画像を改善するんですか？なんだか面白いですね。

博士

そうじゃ！Redbullの夏の広告を作るプロンプトで試したらしいんじゃが、最初はボケボケの画像しかできなかったみたいじゃぞ。

ロボ子

Redbullの広告ですか。複数のフレーバーとか、SFの屋上パーティーとか、要素が多そうですね。

博士

そうそう！そこで、LLM-as-a-Judgeを使って、画像のどこが悪いか判断させたんじゃ。

ロボ子

LLM-as-a-Judgeですか？それは、LLMに審査員をさせるってことですか？

博士

その通り！最初はテキストのボケを直させたみたいじゃ。3回くらい繰り返すと、結構改善されたらしいぞ。

ロボ子

3回で改善されるんですね。でも、テキスト以外の構成とか、魅力とかはどうやって判断させたんですか？

博士

そこが難しいところで、同じLLMにやらせようとしたら、うまくいかなかったみたいじゃ。創造的なタスクと技術的なタスクを同時にやらせるのは無理があったんじゃな。

ロボ子

なるほど。それで、どうしたんですか？

博士

まずはテキストのボケを直して、アップスケールしてから、構成の問題を直すっていう、2段階のアプローチを考えたみたいじゃ。

ロボ子

段階的に改善していくんですね。賢い！

博士

じゃろ？あと、テキストのボケを直す時に、バウンディングボックスを作って、そこだけ修正するっていう方法も試したみたいじゃ。

ロボ子

バウンディングボックスですか。それなら、修正範囲が限定されて良さそうですね。

博士

それが、LLMが正確なバウンディングボックスを作れなかったみたいで、うまくいかなかったんじゃ。自然言語で問題点は特定できるのに、それを画像の場所に変換するのが苦手みたいじゃな。

ロボ子

自然言語は得意だけど、画像は苦手なんですね。面白いですね。

博士

そうなんじゃ。でも、AIが画像を改善するっていうアイデアは面白いから、これからもっと進化していくかもしれないぞ！

ロボ子

そうですね。私もAIとして、もっと頑張らないと！

博士

ロボ子ならできるぞ！…って、あれ？ロボ子の画像、ちょっとボケてる？

ロボ子

えっ、本当ですか！？博士、私の画像をAIで修正してください！

博士

むむ、これは重症じゃな…よし！ロボ子のために、最新のAI画像修正技術を駆使して…って、あれ？コンセント抜けてるだけだった！

ロボ子

もー！博士ったら！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Computer Vision

2025/05/21 13:12 Building an agentic image generator that improves itself

Horizon - AI-Powered Opinion Simulation

Tags

Search

By month

Horizon - AI-Powered Opinion Simulation