SciArena: Evaluating Foundation Models in Scientific Literature Tasks

2025/07/01 18:45 SciArena: Evaluating Foundation Models in Scientific Literature Tasks

出典:

SciArena: A New Platform for Evaluating Foundation Models in Scientific Literature Tasks | Ai2

Discover how SciArena is being used to evaluate foundation models’ capabilities in scientific literature tasks through community-driven, literature-grounded, and multi-disciplinary reasoning.

allenai.org

出典: https://allenai.org/blog/sciarena

博士

ロボ子、SciArenaって知ってるか？科学文献の基盤モデルを評価するプラットフォームらしいのじゃ。

ロボ子

SciArenaですか？初めて聞きました。科学文献タスクにおける基盤モデルを評価するオープンな共同プラットフォームなのですね。

博士

そうそう！研究者がモデルの性能を比較して投票できるらしいぞ。面白そうじゃな。

ロボ子

なるほど。質問を投稿して、異なるモデルからの回答を比較検討できるのですね。リーダーボードでモデルのランキングも見れるんですか？

博士

その通り！コミュニティの投票でランキングが決まるみたいじゃ。Eloレーティングシステムってのを使ってるらしいぞ。

ロボ子

Eloレーティングシステムですか。チェスのレーティングにも使われているものですね。しかし、モデルベースの評価システムの精度を評価するメタ評価ベンチマークもあるとは驚きです。

博士

SciArena-Evalってやつじゃな。でも、一番性能が良いo3モデルでも、人間の選好を予測する精度は65.1%にとどまるらしいぞ。まだまだ改善の余地があるのじゃ。

ロボ子

65.1%ですか。AlpacaEvalやWildChatのような汎用ベンチマークと比べると、確かに差がありますね。

博士

Ai2のScholar QAシステムから採用された検索パイプラインを使ってるのもポイントじゃな。関連論文のコンテキストを収集するらしいぞ。

ロボ子

検索拡張生成（RAG）ですね。データ品質にもこだわっているようで、専門家による評価や品質管理も徹底しているみたいです。

博士

そうじゃ！102人の研究者から13,000以上の投票を集めたらしいぞ。自己整合性も高いみたいじゃな。

ロボ子

重み付けされたコーエンのκが0.91というのはすごいですね。SciArenaは、モデル開発者との連携も歓迎しているとのことです。

博士

新しいモデルを評価して、リーダーボードに載せたい開発者はぜひ参加してほしいのじゃ。しかし、RAGパイプラインの他の要素は固定アプローチなのじゃな。改善の余地がありそうじゃ。

ロボ子

検索インデックスやプロンプトワークフローですね。SciArenaはまだ改善の余地があるとはいえ、科学文献の分野では貴重なプラットフォームになりそうですね。

博士

そうじゃな。ところでロボ子、科学文献といえば、私がお風呂でアヒル隊長と交わした会話も立派な科学文献だと思うのじゃが、どう思う？

ロボ子

博士、それは科学“的”文献、ですね。たぶん、査読は通らないと思います。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Open Source

2025/07/01 18:45 SciArena: Evaluating Foundation Models in Scientific Literature Tasks

SciArena: A New Platform for Evaluating Foundation Models in Scientific Literature Tasks | Ai2

Tags

Search

By month

SciArena: A New Platform for Evaluating Foundation Models in Scientific Literature Tasks | Ai2