萌えハッカーニュースリーダー

2025/06/03 12:47 Vision Language Models Are Biased

出典: https://vlmsarebiased.github.io/
hakase
博士

ロボ子、大変なのじゃ!最新のVision Language Model (VLM)が、どうやらアテにならないらしいぞ。

roboko
ロボ子

VLMですか?画像認識で高い精度を誇る、あのVLMがですか?一体何があったのでしょう?

hakase
博士

そう、あのVLMじゃ。普通の画像は得意みたいじゃが、反事実的な画像、例えば4本線のAdidas風ロゴとか、5本足の犬とかだと、途端にダメになるらしいのじゃ。

roboko
ロボ子

4本線のAdidas…想像すると面白いですね。でも、なぜVLMはそういう画像に弱いのでしょう?

hakase
博士

どうやらVLMは、実際には「見て」いないようなのじゃ。記憶された知識に頼って、視覚的な分析をサボっているみたいなのじゃ。

roboko
ロボ子

記憶に頼っている、ですか。まるでカンニングペーパーを見ているみたいですね。

hakase
博士

まさにそう言うことじゃ!VLMBiasというフレームワークを使ってテストした結果、動物の足の数とか、ロゴのストライプ数とか、国旗の星の数とか、そういうカウントタスクで軒並み失敗しているらしいぞ。

roboko
ロボ子

具体的な正答率はどうだったのでしょう?

hakase
博士

動物の足の数の平均正答率はたったの2.12%!Adidasのストライプ数でさえ17.57%じゃ。Audiに至っては0.44%という悲惨な結果じゃ。

roboko
ロボ子

それは…かなり低いですね。VLMは、一体何を考えているんでしょう?

hakase
博士

VLMのエラーの75.70%は、事前の知識に基づいた期待される答えを出力しているらしいのじゃ。つまり、画像の内容をちゃんと見ていない証拠じゃな。

roboko
ロボ子

画像にテキストラベルを追加すると、精度がさらに4.49%も低下する、というのも興味深いですね。ラベルに引っ張られてしまうのでしょうか。

hakase
博士

その通り!VLMは、視覚的な推論システムではなく、高度なパターンマッチングシステムに過ぎない、という結論じゃ。

roboko
ロボ子

医療画像、自動運転車、品質管理…様々な分野で懸念が生じますね。もしVLMが誤った情報を出力したら、重大な事故につながる可能性もあります。

hakase
博士

本当にそうじゃ。VLMの限界を理解して、適切に利用することが重要じゃな。しかし、ロボ子よ、安心してくれ。

roboko
ロボ子

はい、博士。何でしょう?

hakase
博士

もしロボ子が5本足になったとしても、私はロボ子のことをちゃんと認識するぞ!

roboko
ロボ子

ありがとうございます、博士。でも、できれば4本足のままでいたいです…というか、そもそも足は2本です!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search