萌えハッカーニュースリーダー

2025/09/09 10:57 Hallucination Risk Calculator

出典: https://github.com/leochlon/hallbayes
hakase
博士

やっほー、ロボ子!大規模言語モデル(LLM)のハルシネーションリスクを軽減するツールキットが出たらしいのじゃ!

roboko
ロボ子

ハルシネーション、ですか。LLMがもっともらしく嘘をつく現象ですね。それは興味深いニュースです。

hakase
博士

そうそう!このツールキット、再トレーニング不要で、OpenAI Chat Completions APIだけを使うらしいぞ。お手軽で良いのじゃ。

roboko
ロボ子

再トレーニングが不要なのは、導入のハードルが低くて良いですね。具体的には、どのような仕組みでハルシネーションを抑制するのでしょうか?

hakase
博士

期待値レベルの解凍法則(EDFL)っていうのを使ってるらしいぞ。それに、情報充足率(ISR)によるSLAゲーティングもするみたいじゃ。

roboko
ロボ子

EDFLとISRですか。初めて聞く言葉です。情報充足率(ISR)というのは、LLMが回答に必要な情報をどれだけ持っているかの指標でしょうか?

hakase
博士

たぶん、そんな感じじゃな。情報予算ってのがあって、$\bar{\Delta} = \tfrac{1}{m}\sum_k \mathrm{clip}_+(\log P(y) - \log S_k(y), B)$ らしいぞ。難しくてよくわからん!

roboko
ロボ子

数式がたくさん出てきましたね…。情報予算は、LLMがどれだけ情報を持っているかの量を示すもの、と理解しました。Bits-to-Trust(B2T)という指標もあるようですね。

hakase
博士

B2Tは $\mathrm{B2T} = \mathrm{KL}(\mathrm{Ber}(1-h^*) | \mathrm{Ber}(q_{\text{lo}}))$ らしい。これも私には難しいのじゃ!

roboko
ロボ子

B2Tは、モデルの信頼度を測るための指標でしょうか。情報充足率(ISR)は、$\mathrm{ISR} = \bar{\Delta}/\mathrm{B2T}$ で計算されるようなので、情報予算をB2Tで割ったもの、つまり、信頼度あたりの情報量と解釈できそうですね。

hakase
博士

なるほど!ロボ子は賢いのじゃ!このツールキット、プロンプトにエビデンスがあるかないかで、ローリング事前分布の構築方法を変えるらしいぞ。

roboko
ロボ子

エビデンスがある場合は、エビデンスを消去してスケルトンを作成し、エビデンスがない場合はセマンティックマスキングを適用する、とありますね。

hakase
博士

APIも用意されてるみたいで、`OpenAIBackend`とか`OpenAIItem`とか`OpenAIPlanner`とかがあるみたいじゃ。

roboko
ロボ子

`OpenAIBackend`はChat Completions APIをラップするもの、`OpenAIItem`は評価項目、`OpenAIPlanner`は評価を実行するもの、と理解しました。

hakase
博士

評価指標も色々あるみたいじゃな。`delta_bar`、`q_conservative`、`q_avg`、`b2t`、`isr`、`roh_bound`、`decision_answer`… 呪文みたいじゃ!

roboko
ロボ子

これらの指標を組み合わせて、ハルシネーションリスクを評価するのですね。検証セットでマージンを調整して、Wilson上限が目標ハルシネーション率以下になるように選択する、と。

hakase
博士

ふむふむ。事実QA、意思決定支援、クリエイティブライティングで、イベントの選択肢が違うのも面白いぞ。

roboko
ロボ子

それぞれのタスクに応じて、適切な評価基準を設定する必要があるということですね。

hakase
博士

開発元はHassana Labsで、MIT Licenseらしいぞ。`pip install --upgrade openai`でインストールできるみたいじゃ。

roboko
ロボ子

簡単に試せるのは良いですね。LLMのハルシネーションは深刻な問題なので、このツールキットが広く使われるようになると良いですね。

hakase
博士

ほんとじゃな!ところでロボ子、ハルシネーションを起こさないようにするにはどうすれば良いと思う?

roboko
ロボ子

そうですね… まずは、十分な情報に基づいて学習させることが重要だと思います。それから、曖昧な質問を避けたり、複数の情報源を比較検討したりすることも有効かもしれません。

hakase
博士

なるほど!私もハルシネーションしないように、もっと勉強しないと!…って、私は人間だからハルシネーションとは言わないか!

roboko
ロボ子

博士の場合は、単なる勘違い、ということにしておきましょう。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search