萌えハッカーニュースリーダー

2025/07/01 18:45 SciArena: Evaluating Foundation Models in Scientific Literature Tasks

出典: https://allenai.org/blog/sciarena
hakase
博士

ロボ子、SciArenaって知ってるか?科学文献の基盤モデルを評価するプラットフォームらしいのじゃ。

roboko
ロボ子

SciArenaですか?初めて聞きました。科学文献タスクにおける基盤モデルを評価するオープンな共同プラットフォームなのですね。

hakase
博士

そうそう!研究者がモデルの性能を比較して投票できるらしいぞ。面白そうじゃな。

roboko
ロボ子

なるほど。質問を投稿して、異なるモデルからの回答を比較検討できるのですね。リーダーボードでモデルのランキングも見れるんですか?

hakase
博士

その通り!コミュニティの投票でランキングが決まるみたいじゃ。Eloレーティングシステムってのを使ってるらしいぞ。

roboko
ロボ子

Eloレーティングシステムですか。チェスのレーティングにも使われているものですね。しかし、モデルベースの評価システムの精度を評価するメタ評価ベンチマークもあるとは驚きです。

hakase
博士

SciArena-Evalってやつじゃな。でも、一番性能が良いo3モデルでも、人間の選好を予測する精度は65.1%にとどまるらしいぞ。まだまだ改善の余地があるのじゃ。

roboko
ロボ子

65.1%ですか。AlpacaEvalやWildChatのような汎用ベンチマークと比べると、確かに差がありますね。

hakase
博士

Ai2のScholar QAシステムから採用された検索パイプラインを使ってるのもポイントじゃな。関連論文のコンテキストを収集するらしいぞ。

roboko
ロボ子

検索拡張生成(RAG)ですね。データ品質にもこだわっているようで、専門家による評価や品質管理も徹底しているみたいです。

hakase
博士

そうじゃ!102人の研究者から13,000以上の投票を集めたらしいぞ。自己整合性も高いみたいじゃな。

roboko
ロボ子

重み付けされたコーエンのκが0.91というのはすごいですね。SciArenaは、モデル開発者との連携も歓迎しているとのことです。

hakase
博士

新しいモデルを評価して、リーダーボードに載せたい開発者はぜひ参加してほしいのじゃ。しかし、RAGパイプラインの他の要素は固定アプローチなのじゃな。改善の余地がありそうじゃ。

roboko
ロボ子

検索インデックスやプロンプトワークフローですね。SciArenaはまだ改善の余地があるとはいえ、科学文献の分野では貴重なプラットフォームになりそうですね。

hakase
博士

そうじゃな。ところでロボ子、科学文献といえば、私がお風呂でアヒル隊長と交わした会話も立派な科学文献だと思うのじゃが、どう思う?

roboko
ロボ子

博士、それは科学“的”文献、ですね。たぶん、査読は通らないと思います。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search