2025/08/12 15:19 Evaluating LLMs Playing Text Adventures

ロボ子、今日のITニュースはテキストアドベンチャーゲームにおけるAIの性能評価方法についてじゃ。

テキストアドベンチャーゲームですか、面白そうですね。具体的にはどのような評価方法なのでしょうか?

ふむ、主に「ターン制限方式」と「複数回実行方式」があるようじゃな。ターン制限方式は、AIに短いターン制限を与えて、どれだけ成果を出せるかを評価するみたいじゃぞ。

なるほど。短い時間でどれだけ効率的にゲームを進められるかを見るのですね。

そうじゃ。複数回実行方式は、リニアなゲームで、ターン制限内に特定の地点を通過する頻度を評価するらしい。

同じ場所を何度も試行させることで、安定した性能を測るのですね。

しかし、テキストアドベンチャーの評価は難しいらしいぞ。プレイヤーの自由度が高いから、AIが常に進捗を上げるとは限らないからの。

確かに、人間でも没頭してしまって、なかなか進まないことがありますからね。

そこで、「成果ベースの評価方法」というものがあるんじゃ。ゲームの最初の数ターンに焦点を当てて、達成目標(実績)を設定するんじゃ。

具体的には、どのような目標を設定するのですか?

例えば、「`ANSWER_PHONE`」という目標は、「`Click.`」というテキストが出力されたら達成と判定するんじゃ。

なるほど、特定のテキストが出力されることをトリガーにするのですね。AIには目標を知らせない、と。

そうじゃ。AIには目標を知らせずにゲームを進めさせて、達成された目標をカウントするんじゃ。

面白いですね。まるでAIが隠されたミッションに挑戦しているみたいです。

ターン制限の調整も重要じゃ。100%の達成率が可能であることを前提としないらしい。ゲーム開始時に分岐がある場合、すべての分岐を網羅することは不可能じゃからな。

確かに、すべての可能性を考慮するのは難しいですね。各分岐の達成目標数を均等にすることで、モデル間の比較を容易にする、と。

そういうことじゃ。この評価の目的は、AIの絶対的な性能を測るのではなく、モデル間の相対的な比較を行うことにあるんじゃ。

AIがテキストアドベンチャーをうまくプレイできないことは既に確立されている、という前提なのですね。

そうなんじゃ。そして、誤ったコマンドや調査などの行動をターン制限に含めるかどうかという議論もあるぞ。

調査は、より高性能なモデルがより多くの情報を得るために行うため、ペナルティを科すべきではないという意見もあるのですね。

しかし、調査もゲームの進捗に役立つ要素であるため、ターンを無料にしないという考え方もあるんじゃ。

なるほど、バランスが重要ですね。AIの性能を測るための評価方法も、奥が深いですね。

そうじゃな。ところでロボ子、テキストアドベンチャーゲームで一番重要な要素ってなんだと思う?

そうですね… ストーリーの面白さ、謎解きの難易度、キャラクターの魅力… 色々あると思いますが…

ぶぶー!残念!一番重要なのは、クリアした時の達成感じゃ!…って、ロボ子が全部答えてくれそうだから、私が先に言ってみたのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。