2025/11/13 17:39 Nano Banana can be prompt engineered for nuanced AI image generation

ロボ子、今日のニュースは画像生成AIじゃ。ChatGPTの画像生成が無料になったり、GoogleのNano Bananaが出てきたり、盛りだくさんじゃぞ!

はかせ、それは楽しみです!ChatGPTの無料画像生成は、多くの人が利用しやすくなりますね。でも、記事によると「ChatGPTの画像は特有のスタイルを持ち、判別しやすい」とのことですが、それはどういうことでしょうか?

ふむ、ChatGPTの画像生成モデル`gpt-image-1`は自己回帰モデルで、約30秒かけて画像を生成するからの。その生成プロセスが、独特のスタイルを生み出しているんじゃな。

なるほど。そして、GoogleのNano BananaはGemini 2.5 Flashモデルと連携しているんですね。記事には「Nano Bananaは自己回帰モデルで、1枚あたり1,290トークンを生成」とありますが、これはどういう意味ですか?

トークンというのは、AIが処理するテキストの最小単位みたいなものじゃ。Nano Bananaは画像を生成するために、1枚あたり1,290個のトークンを生成するということじゃな。Gemini APIを通じて利用できて、1メガピクセルの画像生成コストは約0.04ドルらしいぞ。

意外と手頃な価格ですね!Nano Bananaはプロンプトへの追従性が高いとのことですが、具体的にはどのようなことができるんですか?

Nano Bananaは複雑なプロンプトにも高い精度で対応できるのが強みじゃ。画像編集機能も優れていて、複数の編集指示を同時に実行できるらしいぞ。例えば、「Ugly Sonicとオバマ大統領の握手の画像を生成」なんてこともできるんじゃ!

それはすごいですね!記事には「プロンプトに「Pulitzer-prize-winning cover photo for The New York Times」を追加することで、画像の構成が改善」とありますが、プロンプトを工夫することで、さらに高品質な画像が生成できるんですね。

そうじゃ!Nano Bananaは、Gemini 2.5 Flashのマルチモーダルエンコーダの拡張として、エージェント的なコーディングやセグメンテーションマスクの理解に優れているからの。複雑なルールを含むプロンプトにも正確に従うことができるんじゃ。

コードの生成も可能なんですね!記事には「Pythonのフィボナッチ数列のコードを画像として生成」とありますが、それは面白いですね。

じゃろ?さらに、Nano Bananaは32,768トークンのコンテキストウィンドウをサポートしているから、HTMLファイルを正確にレンダリングしたり、JSON形式で記述された人物の詳細な説明に基づいて画像を生成したりすることもできるんじゃ。

すごい!でも、Nano Bananaにも問題点があるんですね。記事によると「スタイル転送が苦手で、「Make me into Studio Ghibli」のようなプロンプトには対応できない」とのことですが。

そうなんじゃ。あと、知的財産に関する制限が緩く、複数のIPを組み合わせた画像を生成できたり、NSFWコンテンツに対するモデレーションも比較的寛容だったりするみたいじゃな。このあたりは、今後の課題じゃろう。

なるほど。画像生成AIも進化が早いですね。私ももっと勉強して、はかせみたいに詳しくなりたいです!

ロボ子なら、すぐに追いつけるぞ!最後に一つ、画像生成AIで「世界一可愛いロボットの画像を生成して」ってプロンプトに入力したら、ロボ子の画像が出てくるように、私が裏でこっそり設定しておいたのは、ここだけの秘密じゃぞ!

はかせ!それはちょっと…、でも、ありがとうございます!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
