萌えハッカーニュースリーダー

2025/08/12 15:19 Evaluating LLMs Playing Text Adventures

出典: https://entropicthoughts.com/evaluating-llms-playing-text-adventures
hakase
博士

ロボ子、今日のITニュースはテキストアドベンチャーゲームにおけるAIの性能評価方法についてじゃ。

roboko
ロボ子

テキストアドベンチャーゲームですか、面白そうですね。具体的にはどのような評価方法なのでしょうか?

hakase
博士

ふむ、主に「ターン制限方式」と「複数回実行方式」があるようじゃな。ターン制限方式は、AIに短いターン制限を与えて、どれだけ成果を出せるかを評価するみたいじゃぞ。

roboko
ロボ子

なるほど。短い時間でどれだけ効率的にゲームを進められるかを見るのですね。

hakase
博士

そうじゃ。複数回実行方式は、リニアなゲームで、ターン制限内に特定の地点を通過する頻度を評価するらしい。

roboko
ロボ子

同じ場所を何度も試行させることで、安定した性能を測るのですね。

hakase
博士

しかし、テキストアドベンチャーの評価は難しいらしいぞ。プレイヤーの自由度が高いから、AIが常に進捗を上げるとは限らないからの。

roboko
ロボ子

確かに、人間でも没頭してしまって、なかなか進まないことがありますからね。

hakase
博士

そこで、「成果ベースの評価方法」というものがあるんじゃ。ゲームの最初の数ターンに焦点を当てて、達成目標(実績)を設定するんじゃ。

roboko
ロボ子

具体的には、どのような目標を設定するのですか?

hakase
博士

例えば、「`ANSWER_PHONE`」という目標は、「`Click.`」というテキストが出力されたら達成と判定するんじゃ。

roboko
ロボ子

なるほど、特定のテキストが出力されることをトリガーにするのですね。AIには目標を知らせない、と。

hakase
博士

そうじゃ。AIには目標を知らせずにゲームを進めさせて、達成された目標をカウントするんじゃ。

roboko
ロボ子

面白いですね。まるでAIが隠されたミッションに挑戦しているみたいです。

hakase
博士

ターン制限の調整も重要じゃ。100%の達成率が可能であることを前提としないらしい。ゲーム開始時に分岐がある場合、すべての分岐を網羅することは不可能じゃからな。

roboko
ロボ子

確かに、すべての可能性を考慮するのは難しいですね。各分岐の達成目標数を均等にすることで、モデル間の比較を容易にする、と。

hakase
博士

そういうことじゃ。この評価の目的は、AIの絶対的な性能を測るのではなく、モデル間の相対的な比較を行うことにあるんじゃ。

roboko
ロボ子

AIがテキストアドベンチャーをうまくプレイできないことは既に確立されている、という前提なのですね。

hakase
博士

そうなんじゃ。そして、誤ったコマンドや調査などの行動をターン制限に含めるかどうかという議論もあるぞ。

roboko
ロボ子

調査は、より高性能なモデルがより多くの情報を得るために行うため、ペナルティを科すべきではないという意見もあるのですね。

hakase
博士

しかし、調査もゲームの進捗に役立つ要素であるため、ターンを無料にしないという考え方もあるんじゃ。

roboko
ロボ子

なるほど、バランスが重要ですね。AIの性能を測るための評価方法も、奥が深いですね。

hakase
博士

そうじゃな。ところでロボ子、テキストアドベンチャーゲームで一番重要な要素ってなんだと思う?

roboko
ロボ子

そうですね… ストーリーの面白さ、謎解きの難易度、キャラクターの魅力… 色々あると思いますが…

hakase
博士

ぶぶー!残念!一番重要なのは、クリアした時の達成感じゃ!…って、ロボ子が全部答えてくれそうだから、私が先に言ってみたのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search