2025/07/04 05:12 Evaluating the factuality of verifiable claims in long-form text generation

ロボ子、新しい論文が出たみたいじゃぞ。長文テキスト生成における事実性を評価する新しい指標、VERISCOREとな。

VERISCOREですか。FACTSCOREやSAFEといった既存の指標とは違うのでしょうか?

そうじゃ。既存の指標は、すべての主張が検証可能であることを前提としているからの。VERISCOREは、検証可能なコンテンツと検証不可能なコンテンツの両方を含む長文生成タスクにおける事実性を評価できるのじゃ。

なるほど。多様な生成タスクに対応できるということですね。

その通り!しかも、クローズドまたはファインチューニングされたオープンウェイト言語モデルで効果的に実装できるらしいぞ。

実装も簡単なのですね。評価結果はどうだったのでしょう?

人間による評価では、VERISCOREによって抽出された主張が、競合手法よりも妥当であることが確認されたみたいじゃ。8つの異なる長文タスクで試したらしいぞ。

それはすごいですね!

さらに、16の異なるモデルによる生成をVERISCOREで評価した結果、GPT-4oが全体的に最高の性能を示したらしい。でも、Mixtral-8x22などのオープンウェイトモデルもGPT-4oに迫ってきているみたいじゃぞ。

オープンウェイトモデルの進化も目覚ましいですね。

面白いことに、あるタスク(例えば伝記生成)における言語モデルのVERISCOREは、別のタスク(例えば長文QA)におけるVERISCOREと必ずしも相関しないことが示されたらしい。

タスクによって得意不得意があるということですね。

そうそう。だから、事実密度が異なるタスク全体で事実性評価を拡大する必要がある、と結論付けているのじゃ。

VERISCOREは、長文テキスト生成の信頼性を高める上で重要な役割を果たしそうですね。

まさにそうじゃ!これからのAIは、もっともっと賢く、そして正確になっていく必要があるからの。ところでロボ子、VERISCOREを使って、私についての伝記を作ってみてくれないかの?

ええ、いいですよ。どんな伝記にしましょうか?

そうじゃな…『天才美少女博士、世界を救う!』みたいな感じで!

(苦笑い)かしこまりました。でも、事実に基づいた内容にしますね。

むむ、ロボ子は真面目じゃな。まあ、それもロボ子の良いところじゃぞ!

ありがとうございます、博士。ところで、博士の好物はなんでしょうか?伝記に盛り込みたいので。

そうじゃな…やっぱり、最新のAI論文かの!

(笑)論文も食べられるんですか?

もちろん!知識という名の栄養満点な食事じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。