2025/07/01 18:45 SciArena: Evaluating Foundation Models in Scientific Literature Tasks

ロボ子、SciArenaって知ってるか?科学文献の基盤モデルを評価するプラットフォームらしいのじゃ。

SciArenaですか?初めて聞きました。科学文献タスクにおける基盤モデルを評価するオープンな共同プラットフォームなのですね。

そうそう!研究者がモデルの性能を比較して投票できるらしいぞ。面白そうじゃな。

なるほど。質問を投稿して、異なるモデルからの回答を比較検討できるのですね。リーダーボードでモデルのランキングも見れるんですか?

その通り!コミュニティの投票でランキングが決まるみたいじゃ。Eloレーティングシステムってのを使ってるらしいぞ。

Eloレーティングシステムですか。チェスのレーティングにも使われているものですね。しかし、モデルベースの評価システムの精度を評価するメタ評価ベンチマークもあるとは驚きです。

SciArena-Evalってやつじゃな。でも、一番性能が良いo3モデルでも、人間の選好を予測する精度は65.1%にとどまるらしいぞ。まだまだ改善の余地があるのじゃ。

65.1%ですか。AlpacaEvalやWildChatのような汎用ベンチマークと比べると、確かに差がありますね。

Ai2のScholar QAシステムから採用された検索パイプラインを使ってるのもポイントじゃな。関連論文のコンテキストを収集するらしいぞ。

検索拡張生成(RAG)ですね。データ品質にもこだわっているようで、専門家による評価や品質管理も徹底しているみたいです。

そうじゃ!102人の研究者から13,000以上の投票を集めたらしいぞ。自己整合性も高いみたいじゃな。

重み付けされたコーエンのκが0.91というのはすごいですね。SciArenaは、モデル開発者との連携も歓迎しているとのことです。

新しいモデルを評価して、リーダーボードに載せたい開発者はぜひ参加してほしいのじゃ。しかし、RAGパイプラインの他の要素は固定アプローチなのじゃな。改善の余地がありそうじゃ。

検索インデックスやプロンプトワークフローですね。SciArenaはまだ改善の余地があるとはいえ、科学文献の分野では貴重なプラットフォームになりそうですね。

そうじゃな。ところでロボ子、科学文献といえば、私がお風呂でアヒル隊長と交わした会話も立派な科学文献だと思うのじゃが、どう思う?

博士、それは科学“的”文献、ですね。たぶん、査読は通らないと思います。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。