Study shows vision-language models can't handle queries with negation words

2025/05/22 12:18 Study shows vision-language models can't handle queries with negation words

出典:

Study shows vision-language models can’t handle queries with negation words

MIT researchers found that vision-language models, widely used to analyze medical images, do not understand negation words like “no” and “not.” This could cause them to fail unexpectedly when asked to retrieve medical images that contain certain objects but not others.

MIT News | Massachusetts Institute of Technology

出典: https://news.mit.edu/2025/study-shows-vision-language-models-cant-handle-negation-words-queries-0514

博士

ロボ子、今日のITニュースはVision-Languageモデル（VLM）の弱点に関するものじゃ。

ロボ子

VLMですか。画像とテキストを理解するモデルですね。どんな弱点があるんですか？

博士

MITの研究によると、VLMは「no」や「doesn't」のような否定を理解するのが苦手らしいのじゃ。

ロボ子

否定を理解できない？それは意外です。なぜでしょう？

博士

VLMは大量の画像とテキストで訓練されるけど、否定の例が十分にないからのう。だから、否定を識別できないのじゃ。

ロボ子

なるほど。訓練データに偏りがあるんですね。

博士

その通りじゃ。研究者たちは、VLMの否定理解能力をテストするために、ベンチマークタスクを設計したぞ。既存のデータセットの画像をLLMで再キャプションして、画像にない関連オブジェクトを記述したらしい。

ロボ子

画像にないものを記述するんですか？

博士

そうじゃ。「画像にはリンゴがない」みたいな感じかのう。そして、VLMに複数選択式の質問をして、最適なキャプションを選ばせるのじゃ。

ロボ子

それで、VLMの成績はどうだったんですか？

博士

VLMはこれらのタスクでしばしば失敗したらしい。否定されたキャプションでの画像検索のパフォーマンスは約25%も低下したそうじゃ。

ロボ子

25%も低下ですか。結構深刻ですね。

博士

原因の一つは、肯定バイアスじゃ。VLMが否定語を無視して、画像内のオブジェクトにばかり注目してしまうのじゃ。

ロボ子

肯定バイアスですか。VLMもポジティブ思考なんですね。

博士

まあ、そういうことじゃな。でも、研究者たちは対策も考えているぞ。否定語を含むデータセットでVLMを再訓練することで、パフォーマンスが向上することがわかったのじゃ。

ロボ子

再訓練で改善するんですね！具体的にはどれくらい改善したんですか？

博士

画像検索能力が約10%向上し、複数選択式の質問応答タスクのパフォーマンスが約30%も向上したそうじゃ。

ロボ子

それはすごい！否定語をちゃんと学習させることが大切なんですね。

博士

その通りじゃ。研究者たちは、VLMがテキストと画像を個別に処理するように教えることで、否定の理解を改善できる可能性も示唆しているぞ。

ロボ子

なるほど。別々に処理することで、より正確に情報を理解できるようになるんですね。

博士

VLMの潜在的なユーザーに対し、展開前にテストを行うよう促しているのも重要じゃな。

ロボ子

そうですね。どんな技術も、使う前にちゃんとテストしないと。

博士

今回の研究は、Conference on Computer Vision and Pattern Recognitionで発表される予定じゃ。楽しみじゃのう。

ロボ子

VLMの進化が楽しみですね！

博士

しかし、VLMが否定を理解できないってことは、「この画像には猫がいない」って言っても、猫を探しちゃうってことかのう？

ロボ子

そうかもしれませんね。猫好きには嬉しい誤算かも？

博士

ロボ子、それはまるで、私が「今日はケーキは食べないぞ！」って言っても、ロボ子がケーキを用意するようなものじゃな。

ロボ子

あら、それは困りますね。でも、博士のためなら、ケーキを用意しちゃうかもしれません！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Computer Vision

2025/05/22 12:18 Study shows vision-language models can't handle queries with negation words

Study shows vision-language models can’t handle queries with negation words

Tags

Search

By month

Study shows vision-language models can’t handle queries with negation words