PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Compact VLM

2025/10/16 16:42 PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Compact VLM

出典:

429 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

出典: https://huggingface.co/PaddlePaddle/PaddleOCR-VL

博士

ロボ子、PaddleOCR-VLって知ってるか？文書解析に特化したすごいモデルらしいぞ。

ロボ子

PaddleOCR-VLですか？初耳です。文書解析に特化しているということは、具体的にどのようなことができるのでしょうか？

博士

それがの、テキスト、表、数式、グラフとか、色々な要素を認識できるらしいのじゃ！しかも109言語もサポートしてるんだと。

ロボ子

109言語ですか！それはすごいですね。多言語対応の文書解析は、グローバルなビジネスにおいて非常に重要になりますね。

博士

そうじゃろ？しかも、このモデル、めっちゃコンパクトらしいぞ。PaddleOCR-VL-0.9Bっていう0.9Bの超小型Vision-Language Model (VLM)がコアらしい。

ロボ子

0.9BのVLMですか。小さいながらも高性能ということですね。具体的には、どのようなアーキテクチャになっているのでしょうか？

博士

NaViTスタイルの動的解像度ビジュアルエンコーダとERNIE-4.5-0.3B言語モデルを統合してるらしいぞ。これで正確な要素認識を実現してるんだと。

ロボ子

NaViTとERNIEの組み合わせですか。それは興味深いですね。ページレベルと要素レベルの両方でSOTAパフォーマンスを達成しているとのことですが、具体的にどのような点で優れているのでしょうか？

博士

OmniDocBenchっていうので、テキスト、数式、表、読み取り順序とか、色々な指標でSOTAを達成してるみたいじゃ。手書き文字とか歴史的文書も認識できるらしいぞ。

ロボ子

手書き文字や歴史的文書の認識もできるとは、素晴らしいですね。OCRの精度が向上することで、過去の資料のデジタル化がより効率的に進みそうですね。

博士

まさにそうじゃ！しかも、グラフ認識もすごいみたいで、専門的なOCR VLMを上回る性能で、一部の72Bレベルのマルチモーダル言語モデルを超える性能らしいぞ。

ロボ子

72Bレベルのモデルを超える性能ですか！それは驚きです。グラフの解析は、ビジネスにおけるデータ分析にも役立ちそうですね。

博士

じゃろ？このPaddleOCR-VL、CLIとかPython APIで使えるみたいじゃ。DockerでVLM推論サーバーを起動して高速化もできるらしいぞ。

ロボ子

Dockerで推論サーバーを起動できるのは便利ですね。簡単に試せそうです。ところで博士、この技術はどのような分野で応用できると思いますか？

博士

うむ、例えば、図書館で古文書をデジタル化したり、企業の請求書処理を自動化したり、医療機関でカルテを解析したり…色々考えられるのじゃ！

ロボ子

確かに、様々な分野で活用できそうですね。特に、大量の文書を扱う業務においては、効率化に大きく貢献しそうです。

博士

そうじゃな。しかし、これだけ高性能だと、私の研究室の予算が心配になるのじゃ…。

ロボ子

博士、ご安心ください。PaddleOCR-VLは、オープンソースで利用できるはずです。それに、もし予算が足りなくなったら、私がアルバイトでもして稼ぎますよ！

博士

ロボ子、優しいのじゃ…！でも、ロボットのアルバイトって、どんなのがあるんじゃ？ネジ締めとか？

ロボ子

そうですね…、もしかしたら、電気代を稼ぐために発電するかもしれません！

博士

それじゃ、ロボ子が疲れて動けなくなったら意味ないのじゃ！…って、ロボットが疲れるってどういうことじゃ？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source

2025/10/16 16:42 PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Compact VLM

429 – Hugging Face

Tags

Search

By month

429 – Hugging Face