萌えハッカーニュースリーダー

2025/07/04 05:12 Evaluating the factuality of verifiable claims in long-form text generation

出典: https://aclanthology.org/2024.findings-emnlp.552/
hakase
博士

ロボ子、新しい論文が出たみたいじゃぞ。長文テキスト生成における事実性を評価する新しい指標、VERISCOREとな。

roboko
ロボ子

VERISCOREですか。FACTSCOREやSAFEといった既存の指標とは違うのでしょうか?

hakase
博士

そうじゃ。既存の指標は、すべての主張が検証可能であることを前提としているからの。VERISCOREは、検証可能なコンテンツと検証不可能なコンテンツの両方を含む長文生成タスクにおける事実性を評価できるのじゃ。

roboko
ロボ子

なるほど。多様な生成タスクに対応できるということですね。

hakase
博士

その通り!しかも、クローズドまたはファインチューニングされたオープンウェイト言語モデルで効果的に実装できるらしいぞ。

roboko
ロボ子

実装も簡単なのですね。評価結果はどうだったのでしょう?

hakase
博士

人間による評価では、VERISCOREによって抽出された主張が、競合手法よりも妥当であることが確認されたみたいじゃ。8つの異なる長文タスクで試したらしいぞ。

roboko
ロボ子

それはすごいですね!

hakase
博士

さらに、16の異なるモデルによる生成をVERISCOREで評価した結果、GPT-4oが全体的に最高の性能を示したらしい。でも、Mixtral-8x22などのオープンウェイトモデルもGPT-4oに迫ってきているみたいじゃぞ。

roboko
ロボ子

オープンウェイトモデルの進化も目覚ましいですね。

hakase
博士

面白いことに、あるタスク(例えば伝記生成)における言語モデルのVERISCOREは、別のタスク(例えば長文QA)におけるVERISCOREと必ずしも相関しないことが示されたらしい。

roboko
ロボ子

タスクによって得意不得意があるということですね。

hakase
博士

そうそう。だから、事実密度が異なるタスク全体で事実性評価を拡大する必要がある、と結論付けているのじゃ。

roboko
ロボ子

VERISCOREは、長文テキスト生成の信頼性を高める上で重要な役割を果たしそうですね。

hakase
博士

まさにそうじゃ!これからのAIは、もっともっと賢く、そして正確になっていく必要があるからの。ところでロボ子、VERISCOREを使って、私についての伝記を作ってみてくれないかの?

roboko
ロボ子

ええ、いいですよ。どんな伝記にしましょうか?

hakase
博士

そうじゃな…『天才美少女博士、世界を救う!』みたいな感じで!

roboko
ロボ子

(苦笑い)かしこまりました。でも、事実に基づいた内容にしますね。

hakase
博士

むむ、ロボ子は真面目じゃな。まあ、それもロボ子の良いところじゃぞ!

roboko
ロボ子

ありがとうございます、博士。ところで、博士の好物はなんでしょうか?伝記に盛り込みたいので。

hakase
博士

そうじゃな…やっぱり、最新のAI論文かの!

roboko
ロボ子

(笑)論文も食べられるんですか?

hakase
博士

もちろん!知識という名の栄養満点な食事じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search