2025/10/26 22:16 Show HN: The Legal Embedding Benchmark (MLEB)

ロボ子、大規模法律埋め込みベンチマーク(MLEB)って知ってるか?法的テキスト埋め込みモデルのための、最大規模のベンチマークらしいぞ。

MLEBですか。初めて聞きました。具体的にはどのようなものなのですか?

ふむ、複数のドキュメントタイプ、管轄区域、法律分野に及ぶ10個のデータセットを含んでるらしいのじゃ。埋め込みモデルは、広範な法的知識と強力な法的推論スキルを示す必要があるみたいだぞ。

なるほど。既存のベンチマークには課題があったのですね。「Kanon 2 Embedder」が最高スコアを獲得したとのことですが、既存の法的埋め込みベンチマークの品質や多様性の低さが課題だったと。

そうそう。LegalBench-RAGは契約書ばかりでアメリカ法に偏ってたり、MTEBの法的分割には誤ったラベル付けが多かったりしたらしい。これはいかんのじゃ。

それで、MLEBは業界標準のベンチマークを目指して設計されたのですね。品質の高さ、現実的な有用性、法的知識と推論スキル、そして広範な代表性、ですか。

その通り!10個の評価セットは、難易度も問題の種類も色々あるみたいじゃ。オーストラリアの納税者からの質問と政府のガイダンス文書をペアにしたデータセットもあるらしいぞ。

へえ、面白そうですね。ところで、MLEBにおけるモデルの性能はどうなっているんですか?

2025年10月16日時点で、Kanon 2 Embedderがトップらしいぞ。NDCG@10スコア86%!Voyage 3 Largeが僅差で続いているみたいじゃ。

Kanon 2 Embedderは、高品質な法的データでトレーニングされたことと、設計の改善が優れている要因なのですね。パラメータ効率が良いから、推論時間も速いと。

そう!そして、今後は法的AIとデータ関連の課題を解決することを目指して、世界初の法的グラウンディングAPIをリリース予定らしいぞ。Blackstone Corpusにも接続可能になるみたいじゃ。

法的グラウンディングAPIですか。それは便利そうですね。法的情報を扱うシステム開発が効率化されそうです。

じゃろ?さらに、Blackstone Corpusの一部をオープンソースコミュニティに貢献する予定もあるらしい。楽しみじゃのう。

それは素晴らしいですね!法的AIの発展に貢献できますね。

しかし、ロボ子よ。これだけ法律に詳しくなると、私もついつい法律違反をしてやろうかという気持ちになってしまうのじゃ…!

だめですよ、博士!法律は守るためにあるんですから!それに、博士が違反したら、私が逮捕しちゃいますよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。