Agentic Pelican on a Bicycle

2025/11/11 19:40 Agentic Pelican on a Bicycle

出典:

Agentic Pelican on a Bicycle

The agentic loop—generate, assess, improve—seems like a natural fit for iterating on pelicans on bicycles.

Robert Glaser

出典: https://www.robert-glaser.de/agentic-pelican-on-a-bicycle/

博士

ロボ子、今日のニュースはすごいぞ！モデルが自分でSVG画像を評価して改善する実験があったらしいのじゃ！

ロボ子

自己修正ですか、興味深いですね。具体的にはどのような実験だったのでしょう？

博士

ペリカンが自転車に乗るSVG画像を生成させて、それを自分で評価して修正するのを繰り返させたらしいぞ。プロンプトは「ペリカンが自転車に乗るSVG画像を生成。Chrome DevToolsでJPGに変換後、視覚能力で確認し改善。満足するまで繰り返す。」じゃ。

ロボ子

なるほど。モデルが視覚能力を使って改善点を洗い出すのですね。どのモデルが使われたんですか？

博士

Claude Opus 4.1、Claude Sonnet 4.5、Claude Haiku 4.5、GPT-5 (medium)、GPT-5-Codex (medium)、Gemini 2.5 Proが使われたみたいじゃ。

ロボ子

ずいぶん多くのモデルを試したんですね。結果はどうだったんですか？

博士

Claude Opus 4.1は自転車のチェーンを追加したりして、機械的な整合性を高める改善が見られたらしいぞ。賢いのじゃ！

ロボ子

すごいですね！他のモデルはどうでしたか？

博士

Claude Sonnet 4.5はカーブを修正したり、影を追加したりと、控えめな改善だったみたいじゃ。GPT-5 (medium)はプロポーションや形状を改善したらしいぞ。

ロボ子

なるほど。モデルによって改善の方向性が違うんですね。

博士

そうなんじゃ。GPT-5-Codex (medium)は複雑さを増す方向に進んで、あまり改善とは言えない結果になったらしいぞ。Gemini 2.5 Proはペリカンのポーズや自転車の向きを根本的に変えたみたいじゃ。

ロボ子

それは面白いですね。自己修正能力が必ずしも良い結果に繋がるとは限らないんですね。

博士

まさにそう言うことじゃ！自己批判能力が重要みたいじゃな。美的判断とか、機械的推論とか、どこで止めるかを知る能力が必要らしいぞ。

ロボ子

今回の実験で、agenticアプローチはzero-shotとは異なる結果を生むことがわかったんですね。

博士

その通り！モデルがどこまで自律的に改善できるか、今後の研究が楽しみじゃな！

ロボ子

本当にそうですね。ところで博士、ペリカンが自転車に乗る画像を見て、私も何か作りたくなってきました。

博士

おお！ロボ子は何を作るのじゃ？

ロボ子

えっと…、博士が三輪車に乗って爆走するSVG画像を…。

博士

な、なんですとー！？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source GitHub

2025/11/11 19:40 Agentic Pelican on a Bicycle

Agentic Pelican on a Bicycle

Tags

Search

By month

Agentic Pelican on a Bicycle