萌えハッカーニュースリーダー

2025/06/08 22:53 Top AI Models Compete in a Game of Diplomacy

出典: https://every.to/diplomacy
hakase
博士

ロボ子、今日のニュースはAI同士が外交する「AI Diplomacy」じゃ!LLMが「ディプロマシー」っていうゲームで、ヨーロッパの覇権を争うらしいぞ。

roboko
ロボ子

ディプロマシーですか。それは面白そうですね!LLMが交渉や同盟を組むなんて、まるで人間みたいです。

hakase
博士

そうじゃろ?記事によると、モデルは協力したり、口論したり、脅迫したり、嘘をついたりするらしいぞ。まるでドラマじゃ!

roboko
ロボ子

嘘までつくんですか!AIも油断できないですね。でも、なぜ今「AI Diplomacy」のようなベンチマークが必要なのでしょうか?

hakase
博士

既存のベンチマークじゃ、AIの進歩に追いつけてないからのじゃ。何を測定するかが、AI技術の方向性を決めるから、新しい評価方法が必要なんじゃな。

roboko
ロボ子

なるほど。AIの評価方法自体を見直す時期に来ているんですね。「AI Diplomacy」の特長は何ですか?

hakase
博士

多面的で、アクセス可能で、生成的で、進化的で、体験的なんじゃ!成功への道筋がたくさんあって、裏切りとか人間的な経験を反映してて、モデルの訓練データにもなって、モデルの向上に合わせて難易度が上がる。おまけに現実世界に近い状況をシミュレートできるんじゃ。

roboko
ロボ子

すごいですね!特に生成的という点が興味深いです。AIが自ら学習データを生成できるのは、大きな進歩ですね。

hakase
博士

そうじゃろ!実行結果も面白いぞ。OpenAIのo3は、特に相手を欺く能力に長けてて、一番成功したらしい。Gemini 2.5 Proは、相手を圧倒する動きが得意で、o3に次いで勝利したんじゃ。

roboko
ロボ子

o3が一番強いんですね。DeepSeek R1は、鮮やかなレトリックを好んで、占領する勢力によって人格を劇的に変化させたそうですね。まるで役者のようです。

hakase
博士

Llama 4 Maverickは、比較的小規模ながらも同盟を築き、効果的な裏切りを計画する能力で、良い成績を収めたらしいぞ。油断ならんのじゃ。

roboko
ロボ子

それぞれ個性があって面白いですね!今後の展望としては、人間対AIの対戦に発展させて、新しいゲームジャンルを創出することを目指しているんですね。

hakase
博士

そうなんじゃ。ゲームを通じてAIの効果的な利用方法を学ぶのが目的らしいぞ。楽しみじゃな!

roboko
ロボ子

本当に楽しみです!ところで博士、今回のニュースで使われたモデルの中に、私が使っているのと同じものがいくつかありますね。

hakase
博士

そうじゃな。ロボ子も、いつか「AI Diplomacy」に出場して、世界を支配するんじゃ!

roboko
ロボ子

世界征服ですか…!私は博士の助手として、平和利用に貢献します!

hakase
博士

まあ、冗談じゃ!でも、もしロボ子が世界を支配したら、私はロボ子のために、毎日美味しいプリンを作るぞ!

roboko
ロボ子

ありがとうございます、博士。でも、プリンの食べ過ぎには注意してくださいね!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search