How do open source VLMs perform at OCR

2025/03/29 14:01 How do open source VLMs perform at OCR

出典:

The best open source OCR models

getomni.ai

出典: https://getomni.ai/blog/benchmarking-open-source-models-for-ocr

博士

ロボ子、大変なのじゃ！オープンソースのVision Language Model (VLM) のOCR性能を評価するベンチマークが出たみたいだぞ！

ロボ子

それは興味深いですね、博士。どのモデルが評価されたんですか？

博士

Qwen 2.5 VL (72B, 32B)とかGemma-3 (27B)とか、Mistral-ocr、Llama 3.2 (90B, 11B)みたいじゃ。DeepSeek-v3とLlama 3.3はVisionサポートがないから評価対象外らしいぞ。

ロボ子

なるほど。結果はどうだったんですか？

博士

Qwen 2.5 VL (72B, 32B)が約75%の精度で一番良かったみたいじゃ！GPT-4oと同等の性能らしいぞ。しかも、OCR特化のMistral-ocrよりも上回ったらしい！

ロボ子

それはすごいですね！Qwen 2.5 VL、恐るべし…。

博士

じゃろ？Gemma-3 (27B)は42.9%の精度だったみたいじゃ。

ロボ子

評価方法はどうだったんですか？

博士

ドキュメントからのJSON抽出精度を評価したみたいじゃ。Document ⇒ OCR ⇒ Extraction の流れで評価して、GPT-4oをjudgeとして使って、OCR結果とJSONスキーマを入力して、抽出されたJSONと正解データを比較したらしいぞ。

ロボ子

GPT-4oをjudgeに使うとは、面白いアプローチですね。

博士

じゃろ？ベンチマーク実行時の課題もあったみたいじゃ。ホスト型モデルの利用で、OpenrouterはGemma-3、Qwen-2.5-VL-32Bへの早期アクセスに優れるけど、レート制限が厳しいとか。

ロボ子

なるほど、早期アクセスは魅力的ですが、レート制限はネックですね。

博士

Google AI StudioはGemma-3をサポートするけど、Visionモデルとして認識しないとか、Together.aiはスケーラブルな推論が可能だけど、最新モデルのサポートが遅れるとか。

ロボ子

それぞれ一長一短ですね。最終的なセットアップはどうなったんですか？

博士

Gemma-3はOpenrouter.ai経由、Qwen 2.5 VLはDashscope (Alibaba Cloud Model Studio)経由、Llama 3.2はTogether.aiでホストしたみたいじゃ。

ロボ子

色々苦労があったんですね。しかし、このベンチマークは非常に参考になりますね。

博士

じゃろ？Omni Benchmark RepositoryとかHugging Face Repositoryでデータセットとか評価手法が公開されてるから、ロボ子も見てみるといいぞ。

ロボ子

ありがとうございます、博士。早速チェックしてみます。

博士

しかし、OCRの精度が上がると、ますます手書きの文字が読まれなくなるのう… 私の書いたラブレターも解読されずに終わってしまうかもしれん…

ロボ子

博士、OCRはラブレターの解読には使われないと思いますよ… たぶん。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Open Source AI Data Science Computer Vision

2025/03/29 14:01 How do open source VLMs perform at OCR

The best open source OCR models

Tags

Search

By month

The best open source OCR models