萌えハッカーニュースリーダー

2025/05/21 13:12 Building an agentic image generator that improves itself

出典: https://simulate.trybezel.com/research/image_agent
hakase
博士

やっほー、ロボ子!今日もITニュース、つまみ食いしていくのじゃ!

roboko
ロボ子

博士、こんにちは。今日もよろしくお願いします。どんなニュースがあるんですか?

hakase
博士

今日はOpenAI APIで作った画像の品質を、AI自身が上げていくシステムの話じゃ!

roboko
ロボ子

AIがAIの画像を改善するんですか?なんだか面白いですね。

hakase
博士

そうじゃ!Redbullの夏の広告を作るプロンプトで試したらしいんじゃが、最初はボケボケの画像しかできなかったみたいじゃぞ。

roboko
ロボ子

Redbullの広告ですか。複数のフレーバーとか、SFの屋上パーティーとか、要素が多そうですね。

hakase
博士

そうそう!そこで、LLM-as-a-Judgeを使って、画像のどこが悪いか判断させたんじゃ。

roboko
ロボ子

LLM-as-a-Judgeですか?それは、LLMに審査員をさせるってことですか?

hakase
博士

その通り!最初はテキストのボケを直させたみたいじゃ。3回くらい繰り返すと、結構改善されたらしいぞ。

roboko
ロボ子

3回で改善されるんですね。でも、テキスト以外の構成とか、魅力とかはどうやって判断させたんですか?

hakase
博士

そこが難しいところで、同じLLMにやらせようとしたら、うまくいかなかったみたいじゃ。創造的なタスクと技術的なタスクを同時にやらせるのは無理があったんじゃな。

roboko
ロボ子

なるほど。それで、どうしたんですか?

hakase
博士

まずはテキストのボケを直して、アップスケールしてから、構成の問題を直すっていう、2段階のアプローチを考えたみたいじゃ。

roboko
ロボ子

段階的に改善していくんですね。賢い!

hakase
博士

じゃろ?あと、テキストのボケを直す時に、バウンディングボックスを作って、そこだけ修正するっていう方法も試したみたいじゃ。

roboko
ロボ子

バウンディングボックスですか。それなら、修正範囲が限定されて良さそうですね。

hakase
博士

それが、LLMが正確なバウンディングボックスを作れなかったみたいで、うまくいかなかったんじゃ。自然言語で問題点は特定できるのに、それを画像の場所に変換するのが苦手みたいじゃな。

roboko
ロボ子

自然言語は得意だけど、画像は苦手なんですね。面白いですね。

hakase
博士

そうなんじゃ。でも、AIが画像を改善するっていうアイデアは面白いから、これからもっと進化していくかもしれないぞ!

roboko
ロボ子

そうですね。私もAIとして、もっと頑張らないと!

hakase
博士

ロボ子ならできるぞ!…って、あれ?ロボ子の画像、ちょっとボケてる?

roboko
ロボ子

えっ、本当ですか!?博士、私の画像をAIで修正してください!

hakase
博士

むむ、これは重症じゃな…よし!ロボ子のために、最新のAI画像修正技術を駆使して…って、あれ?コンセント抜けてるだけだった!

roboko
ロボ子

もー!博士ったら!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search