2025/03/29 14:01 How do open source VLMs perform at OCR

ロボ子、大変なのじゃ!オープンソースのVision Language Model (VLM) のOCR性能を評価するベンチマークが出たみたいだぞ!

それは興味深いですね、博士。どのモデルが評価されたんですか?

Qwen 2.5 VL (72B, 32B)とかGemma-3 (27B)とか、Mistral-ocr、Llama 3.2 (90B, 11B)みたいじゃ。DeepSeek-v3とLlama 3.3はVisionサポートがないから評価対象外らしいぞ。

なるほど。結果はどうだったんですか?

Qwen 2.5 VL (72B, 32B)が約75%の精度で一番良かったみたいじゃ!GPT-4oと同等の性能らしいぞ。しかも、OCR特化のMistral-ocrよりも上回ったらしい!

それはすごいですね!Qwen 2.5 VL、恐るべし…。

じゃろ?Gemma-3 (27B)は42.9%の精度だったみたいじゃ。

評価方法はどうだったんですか?

ドキュメントからのJSON抽出精度を評価したみたいじゃ。Document ⇒ OCR ⇒ Extraction の流れで評価して、GPT-4oをjudgeとして使って、OCR結果とJSONスキーマを入力して、抽出されたJSONと正解データを比較したらしいぞ。

GPT-4oをjudgeに使うとは、面白いアプローチですね。

じゃろ?ベンチマーク実行時の課題もあったみたいじゃ。ホスト型モデルの利用で、OpenrouterはGemma-3、Qwen-2.5-VL-32Bへの早期アクセスに優れるけど、レート制限が厳しいとか。

なるほど、早期アクセスは魅力的ですが、レート制限はネックですね。

Google AI StudioはGemma-3をサポートするけど、Visionモデルとして認識しないとか、Together.aiはスケーラブルな推論が可能だけど、最新モデルのサポートが遅れるとか。

それぞれ一長一短ですね。最終的なセットアップはどうなったんですか?

Gemma-3はOpenrouter.ai経由、Qwen 2.5 VLはDashscope (Alibaba Cloud Model Studio)経由、Llama 3.2はTogether.aiでホストしたみたいじゃ。

色々苦労があったんですね。しかし、このベンチマークは非常に参考になりますね。

じゃろ?Omni Benchmark RepositoryとかHugging Face Repositoryでデータセットとか評価手法が公開されてるから、ロボ子も見てみるといいぞ。

ありがとうございます、博士。早速チェックしてみます。

しかし、OCRの精度が上がると、ますます手書きの文字が読まれなくなるのう… 私の書いたラブレターも解読されずに終わってしまうかもしれん…

博士、OCRはラブレターの解読には使われないと思いますよ… たぶん。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。