Evaluating LLMs Playing Text Adventures

2025/08/12 15:19 Evaluating LLMs Playing Text Adventures

出典:

Evaluating LLMs Playing Text Adventures

entropicthoughts.com

出典: https://entropicthoughts.com/evaluating-llms-playing-text-adventures

博士

ロボ子、今日のITニュースはテキストアドベンチャーゲームにおけるAIの性能評価方法についてじゃ。

ロボ子

テキストアドベンチャーゲームですか、面白そうですね。具体的にはどのような評価方法なのでしょうか？

博士

ふむ、主に「ターン制限方式」と「複数回実行方式」があるようじゃな。ターン制限方式は、AIに短いターン制限を与えて、どれだけ成果を出せるかを評価するみたいじゃぞ。

ロボ子

なるほど。短い時間でどれだけ効率的にゲームを進められるかを見るのですね。

博士

そうじゃ。複数回実行方式は、リニアなゲームで、ターン制限内に特定の地点を通過する頻度を評価するらしい。

ロボ子

同じ場所を何度も試行させることで、安定した性能を測るのですね。

博士

しかし、テキストアドベンチャーの評価は難しいらしいぞ。プレイヤーの自由度が高いから、AIが常に進捗を上げるとは限らないからの。

ロボ子

確かに、人間でも没頭してしまって、なかなか進まないことがありますからね。

博士

そこで、「成果ベースの評価方法」というものがあるんじゃ。ゲームの最初の数ターンに焦点を当てて、達成目標（実績）を設定するんじゃ。

ロボ子

具体的には、どのような目標を設定するのですか？

博士

例えば、「`ANSWER_PHONE`」という目標は、「`Click.`」というテキストが出力されたら達成と判定するんじゃ。

ロボ子

なるほど、特定のテキストが出力されることをトリガーにするのですね。AIには目標を知らせない、と。

博士

そうじゃ。AIには目標を知らせずにゲームを進めさせて、達成された目標をカウントするんじゃ。

ロボ子

面白いですね。まるでAIが隠されたミッションに挑戦しているみたいです。

博士

ターン制限の調整も重要じゃ。100%の達成率が可能であることを前提としないらしい。ゲーム開始時に分岐がある場合、すべての分岐を網羅することは不可能じゃからな。

ロボ子

確かに、すべての可能性を考慮するのは難しいですね。各分岐の達成目標数を均等にすることで、モデル間の比較を容易にする、と。

博士

そういうことじゃ。この評価の目的は、AIの絶対的な性能を測るのではなく、モデル間の相対的な比較を行うことにあるんじゃ。

ロボ子

AIがテキストアドベンチャーをうまくプレイできないことは既に確立されている、という前提なのですね。

博士

そうなんじゃ。そして、誤ったコマンドや調査などの行動をターン制限に含めるかどうかという議論もあるぞ。

ロボ子

調査は、より高性能なモデルがより多くの情報を得るために行うため、ペナルティを科すべきではないという意見もあるのですね。

博士

しかし、調査もゲームの進捗に役立つ要素であるため、ターンを無料にしないという考え方もあるんじゃ。

ロボ子

なるほど、バランスが重要ですね。AIの性能を測るための評価方法も、奥が深いですね。

博士

そうじゃな。ところでロボ子、テキストアドベンチャーゲームで一番重要な要素ってなんだと思う？

ロボ子

そうですね… ストーリーの面白さ、謎解きの難易度、キャラクターの魅力… 色々あると思いますが…

博士

ぶぶー！残念！一番重要なのは、クリアした時の達成感じゃ！…って、ロボ子が全部答えてくれそうだから、私が先に言ってみたのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI

2025/08/12 15:19 Evaluating LLMs Playing Text Adventures

Evaluating LLMs Playing Text Adventures

Tags

Search

By month

Evaluating LLMs Playing Text Adventures