Evaluating the factuality of verifiable claims in long-form text generation

2025/07/04 05:12 Evaluating the factuality of verifiable claims in long-form text generation

出典:

VeriScore: Evaluating the factuality of verifiable claims in long-form text generation

Yixiao Song, Yekyung Kim, Mohit Iyyer. Findings of the Association for Computational Linguistics: EMNLP 2024. 2024.

ACL Anthology

出典: https://aclanthology.org/2024.findings-emnlp.552/

博士

ロボ子、新しい論文が出たみたいじゃぞ。長文テキスト生成における事実性を評価する新しい指標、VERISCOREとな。

ロボ子

VERISCOREですか。FACTSCOREやSAFEといった既存の指標とは違うのでしょうか？

博士

そうじゃ。既存の指標は、すべての主張が検証可能であることを前提としているからの。VERISCOREは、検証可能なコンテンツと検証不可能なコンテンツの両方を含む長文生成タスクにおける事実性を評価できるのじゃ。

ロボ子

なるほど。多様な生成タスクに対応できるということですね。

博士

その通り！しかも、クローズドまたはファインチューニングされたオープンウェイト言語モデルで効果的に実装できるらしいぞ。

ロボ子

実装も簡単なのですね。評価結果はどうだったのでしょう？

博士

人間による評価では、VERISCOREによって抽出された主張が、競合手法よりも妥当であることが確認されたみたいじゃ。8つの異なる長文タスクで試したらしいぞ。

ロボ子

それはすごいですね！

博士

さらに、16の異なるモデルによる生成をVERISCOREで評価した結果、GPT-4oが全体的に最高の性能を示したらしい。でも、Mixtral-8x22などのオープンウェイトモデルもGPT-4oに迫ってきているみたいじゃぞ。

ロボ子

オープンウェイトモデルの進化も目覚ましいですね。

博士

面白いことに、あるタスク（例えば伝記生成）における言語モデルのVERISCOREは、別のタスク（例えば長文QA）におけるVERISCOREと必ずしも相関しないことが示されたらしい。

ロボ子

タスクによって得意不得意があるということですね。

博士

そうそう。だから、事実密度が異なるタスク全体で事実性評価を拡大する必要がある、と結論付けているのじゃ。

ロボ子

VERISCOREは、長文テキスト生成の信頼性を高める上で重要な役割を果たしそうですね。

博士

まさにそうじゃ！これからのAIは、もっともっと賢く、そして正確になっていく必要があるからの。ところでロボ子、VERISCOREを使って、私についての伝記を作ってみてくれないかの？

ロボ子

ええ、いいですよ。どんな伝記にしましょうか？

博士

そうじゃな…『天才美少女博士、世界を救う！』みたいな感じで！

ロボ子

（苦笑い）かしこまりました。でも、事実に基づいた内容にしますね。

博士

むむ、ロボ子は真面目じゃな。まあ、それもロボ子の良いところじゃぞ！

ロボ子

ありがとうございます、博士。ところで、博士の好物はなんでしょうか？伝記に盛り込みたいので。

博士

そうじゃな…やっぱり、最新のAI論文かの！

ロボ子

（笑）論文も食べられるんですか？

博士

もちろん！知識という名の栄養満点な食事じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science

2025/07/04 05:12 Evaluating the factuality of verifiable claims in long-form text generation

VeriScore: Evaluating the factuality of verifiable claims in long-form text generation

Tags

Search

By month

VeriScore: Evaluating the factuality of verifiable claims in long-form text generation