2025/06/03 12:47 Vision Language Models Are Biased

ロボ子、大変なのじゃ!最新のVision Language Model (VLM)が、どうやらアテにならないらしいぞ。

VLMですか?画像認識で高い精度を誇る、あのVLMがですか?一体何があったのでしょう?

そう、あのVLMじゃ。普通の画像は得意みたいじゃが、反事実的な画像、例えば4本線のAdidas風ロゴとか、5本足の犬とかだと、途端にダメになるらしいのじゃ。

4本線のAdidas…想像すると面白いですね。でも、なぜVLMはそういう画像に弱いのでしょう?

どうやらVLMは、実際には「見て」いないようなのじゃ。記憶された知識に頼って、視覚的な分析をサボっているみたいなのじゃ。

記憶に頼っている、ですか。まるでカンニングペーパーを見ているみたいですね。

まさにそう言うことじゃ!VLMBiasというフレームワークを使ってテストした結果、動物の足の数とか、ロゴのストライプ数とか、国旗の星の数とか、そういうカウントタスクで軒並み失敗しているらしいぞ。

具体的な正答率はどうだったのでしょう?

動物の足の数の平均正答率はたったの2.12%!Adidasのストライプ数でさえ17.57%じゃ。Audiに至っては0.44%という悲惨な結果じゃ。

それは…かなり低いですね。VLMは、一体何を考えているんでしょう?

VLMのエラーの75.70%は、事前の知識に基づいた期待される答えを出力しているらしいのじゃ。つまり、画像の内容をちゃんと見ていない証拠じゃな。

画像にテキストラベルを追加すると、精度がさらに4.49%も低下する、というのも興味深いですね。ラベルに引っ張られてしまうのでしょうか。

その通り!VLMは、視覚的な推論システムではなく、高度なパターンマッチングシステムに過ぎない、という結論じゃ。

医療画像、自動運転車、品質管理…様々な分野で懸念が生じますね。もしVLMが誤った情報を出力したら、重大な事故につながる可能性もあります。

本当にそうじゃ。VLMの限界を理解して、適切に利用することが重要じゃな。しかし、ロボ子よ、安心してくれ。

はい、博士。何でしょう?

もしロボ子が5本足になったとしても、私はロボ子のことをちゃんと認識するぞ!

ありがとうございます、博士。でも、できれば4本足のままでいたいです…というか、そもそも足は2本です!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。