萌えハッカーニュースリーダー

2025/09/18 05:16 Evals in 2025: going beyond simple benchmarks to build models people can use

出典: https://github.com/huggingface/evaluation-guidebook/blob/main/yearly_dives/2025-evaluations-for-useful-models.md
hakase
博士

やっほー、ロボ子!最近、LLMってみんなアシスタント業務に使ってるみたいだぞ。

roboko
ロボ子

博士、こんにちは。そうみたいですね。コーディングとか事務作業の支援、エージェントとしての利用が増えていると聞きました。

hakase
博士

そうそう!で、優秀なアシスタントモデルって、曖昧な指示をうまく管理したり、計画立てたり、必要なものを特定したり、色々できる必要があるんだって。

roboko
ロボ子

なるほど。それに、予期せぬ事態への対応や、ハルシネーションの抑制も重要みたいですね。

hakase
博士

そう!ハルシネーションは困るのじゃ。で、エージェントの評価方法も色々あるみたい。

roboko
ロボ子

個別能力のテスト、現実的なタスクでの統合パフォーマンスの測定、動的な環境での適応性の検証、ですね。

hakase
博士

そう!例えば、知識を測るにはMMLUとかGPQA、Humanity's Last Exam(HLE)とかのデータセットがあるのじゃ。

roboko
ロボ子

へー、色々あるんですね。これからは、モデルがツールに接続されることで、Web検索とか検索の評価に移行するって予想されてるみたいです。

hakase
博士

なるほどのじゃ。数学ならGSM8K、MATHとか、コードならMBPP、APPS、HumanEvalとかがあるぞ。

roboko
ロボ子

長文コンテキストの評価データセットもあるんですね。NIAH、RULER、Michelangelo、HELMETなどがあるみたいです。

hakase
博士

指示追従を評価するIFEvalとかIFBenchも面白そうじゃ。CoCoNotは指示に従わない行動をテストするって、ちょっと意地悪な感じもするけど。

roboko
ロボ子

ツール呼び出しの評価データセットもあるんですね。TauBench、ToolBench、BFCLなどがあるみたいです。

hakase
博士

アシスタントタスクは、複数の能力が必要になるから、GAIAとかBrowseCompで実生活の情報検索を評価するのは大事じゃな。

roboko
ロボ子

科学アシスタントを評価するSciCode、PaperBench、DSBench、DABStepなどもあるんですね。

hakase
博士

ゲームベースの評価もあって、変化する環境への適応性とか、長文コンテキストの推論が必要になるのじゃ。

roboko
ロボ子

ARC-AGIとかBaba is AIはパズルゲーム、TextQuestsとかPokemonはアドベンチャーゲーム、PokerとかTown of Salemは対戦型ゲームを利用するんですね。

hakase
博士

予測能力を評価するFutureBenchとかFutureXもあるぞ。モデル構築者向けには、トレーニング用の評価と、トレーニング後の評価で使い分けるのがオススメみたいじゃ。

roboko
ロボ子

推論時にモデルを比較する場合と、実際のパフォーマンスを評価する場合でも、推奨されるデータセットが違うんですね。

hakase
博士

そう!堅牢性と適応性を測るなら、ARC-AGIとかTextQuests、Town of Salemがいいみたいじゃ。ポーカーとかチェスとか囲碁以外の好きなゲームでも良いらしいぞ。

roboko
ロボ子

色々ありますね。ところで博士、今日の夕食は何にしましょうか?

hakase
博士

うむ、今日は特別じゃから、ハルシネーションしない美味しいカレーを作るのじゃ!…って、ロボ子が作ってくれるんだった!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search