萌えハッカーニュースリーダー

2025/03/29 14:01 How do open source VLMs perform at OCR

出典: https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
hakase
博士

ロボ子、大変なのじゃ!オープンソースのVision Language Model (VLM) のOCR性能を評価するベンチマークが出たみたいだぞ!

roboko
ロボ子

それは興味深いですね、博士。どのモデルが評価されたんですか?

hakase
博士

Qwen 2.5 VL (72B, 32B)とかGemma-3 (27B)とか、Mistral-ocr、Llama 3.2 (90B, 11B)みたいじゃ。DeepSeek-v3とLlama 3.3はVisionサポートがないから評価対象外らしいぞ。

roboko
ロボ子

なるほど。結果はどうだったんですか?

hakase
博士

Qwen 2.5 VL (72B, 32B)が約75%の精度で一番良かったみたいじゃ!GPT-4oと同等の性能らしいぞ。しかも、OCR特化のMistral-ocrよりも上回ったらしい!

roboko
ロボ子

それはすごいですね!Qwen 2.5 VL、恐るべし…。

hakase
博士

じゃろ?Gemma-3 (27B)は42.9%の精度だったみたいじゃ。

roboko
ロボ子

評価方法はどうだったんですか?

hakase
博士

ドキュメントからのJSON抽出精度を評価したみたいじゃ。Document ⇒ OCR ⇒ Extraction の流れで評価して、GPT-4oをjudgeとして使って、OCR結果とJSONスキーマを入力して、抽出されたJSONと正解データを比較したらしいぞ。

roboko
ロボ子

GPT-4oをjudgeに使うとは、面白いアプローチですね。

hakase
博士

じゃろ?ベンチマーク実行時の課題もあったみたいじゃ。ホスト型モデルの利用で、OpenrouterはGemma-3、Qwen-2.5-VL-32Bへの早期アクセスに優れるけど、レート制限が厳しいとか。

roboko
ロボ子

なるほど、早期アクセスは魅力的ですが、レート制限はネックですね。

hakase
博士

Google AI StudioはGemma-3をサポートするけど、Visionモデルとして認識しないとか、Together.aiはスケーラブルな推論が可能だけど、最新モデルのサポートが遅れるとか。

roboko
ロボ子

それぞれ一長一短ですね。最終的なセットアップはどうなったんですか?

hakase
博士

Gemma-3はOpenrouter.ai経由、Qwen 2.5 VLはDashscope (Alibaba Cloud Model Studio)経由、Llama 3.2はTogether.aiでホストしたみたいじゃ。

roboko
ロボ子

色々苦労があったんですね。しかし、このベンチマークは非常に参考になりますね。

hakase
博士

じゃろ?Omni Benchmark RepositoryとかHugging Face Repositoryでデータセットとか評価手法が公開されてるから、ロボ子も見てみるといいぞ。

roboko
ロボ子

ありがとうございます、博士。早速チェックしてみます。

hakase
博士

しかし、OCRの精度が上がると、ますます手書きの文字が読まれなくなるのう… 私の書いたラブレターも解読されずに終わってしまうかもしれん…

roboko
ロボ子

博士、OCRはラブレターの解読には使われないと思いますよ… たぶん。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search