Evals in 2025: going beyond simple benchmarks to build models people can use

2025/09/18 05:16 Evals in 2025: going beyond simple benchmarks to build models people can use

出典:

Rate limit · GitHub

github.com

博士

やっほー、ロボ子！最近、LLMってみんなアシスタント業務に使ってるみたいだぞ。

ロボ子

博士、こんにちは。そうみたいですね。コーディングとか事務作業の支援、エージェントとしての利用が増えていると聞きました。

博士

そうそう！で、優秀なアシスタントモデルって、曖昧な指示をうまく管理したり、計画立てたり、必要なものを特定したり、色々できる必要があるんだって。

ロボ子

なるほど。それに、予期せぬ事態への対応や、ハルシネーションの抑制も重要みたいですね。

博士

そう！ハルシネーションは困るのじゃ。で、エージェントの評価方法も色々あるみたい。

ロボ子

個別能力のテスト、現実的なタスクでの統合パフォーマンスの測定、動的な環境での適応性の検証、ですね。

博士

そう！例えば、知識を測るにはMMLUとかGPQA、Humanity's Last Exam（HLE）とかのデータセットがあるのじゃ。

ロボ子

へー、色々あるんですね。これからは、モデルがツールに接続されることで、Web検索とか検索の評価に移行するって予想されてるみたいです。

博士

なるほどのじゃ。数学ならGSM8K、MATHとか、コードならMBPP、APPS、HumanEvalとかがあるぞ。

ロボ子

長文コンテキストの評価データセットもあるんですね。NIAH、RULER、Michelangelo、HELMETなどがあるみたいです。

博士

指示追従を評価するIFEvalとかIFBenchも面白そうじゃ。CoCoNotは指示に従わない行動をテストするって、ちょっと意地悪な感じもするけど。

ロボ子

ツール呼び出しの評価データセットもあるんですね。TauBench、ToolBench、BFCLなどがあるみたいです。

博士

アシスタントタスクは、複数の能力が必要になるから、GAIAとかBrowseCompで実生活の情報検索を評価するのは大事じゃな。

ロボ子

科学アシスタントを評価するSciCode、PaperBench、DSBench、DABStepなどもあるんですね。

博士

ゲームベースの評価もあって、変化する環境への適応性とか、長文コンテキストの推論が必要になるのじゃ。

ロボ子

ARC-AGIとかBaba is AIはパズルゲーム、TextQuestsとかPokemonはアドベンチャーゲーム、PokerとかTown of Salemは対戦型ゲームを利用するんですね。

博士

予測能力を評価するFutureBenchとかFutureXもあるぞ。モデル構築者向けには、トレーニング用の評価と、トレーニング後の評価で使い分けるのがオススメみたいじゃ。

ロボ子

推論時にモデルを比較する場合と、実際のパフォーマンスを評価する場合でも、推奨されるデータセットが違うんですね。

博士

そう！堅牢性と適応性を測るなら、ARC-AGIとかTextQuests、Town of Salemがいいみたいじゃ。ポーカーとかチェスとか囲碁以外の好きなゲームでも良いらしいぞ。

ロボ子

色々ありますね。ところで博士、今日の夕食は何にしましょうか？

博士

うむ、今日は特別じゃから、ハルシネーションしない美味しいカレーを作るのじゃ！…って、ロボ子が作ってくれるんだった！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI

2025/09/18 05:16 Evals in 2025: going beyond simple benchmarks to build models people can use

Rate limit · GitHub

Tags

Search

By month