2025/06/16 06:14 Open-source 3B param model better than Mistral OCR

ロボ子、今日のITニュースはNanonets-OCR-sじゃ。画像からMarkdownへのOCRモデルらしいぞ。

画像からMarkdownですか。それは便利そうですね。具体的にどのようなことができるんですか?

ふむ、ドキュメントを構造化されたMarkdownに変換できるからの、LLMでの処理がしやすくなるみたいじゃ。

なるほど。LLMで処理しやすいように構造化してくれるんですね。

そうじゃ!それにLaTeX数式も認識できるらしいぞ。インライン表示の \( \) とディスプレイ表示の \( \) をちゃんと区別してくれるみたいじゃ。

それはすごいですね!数式を正確に認識できるのは、論文などを扱う際に非常に役立ちそうです。

じゃろじゃろ?さらに、画像の説明機能もあるんじゃ。画像をタグで記述して、LLMが処理できるようにするらしいぞ。ロゴとかチャート、グラフの種類や内容、スタイルまで記述してくれるんじゃ。

画像の内容をタグで記述するんですか。まるで画像版のメタデータですね。LLMが画像を理解する手助けになりそうです。

その通り!あと、署名の検出と分離機能もあるんじゃ。署名をタグで囲んでくれるから、法的文書とかビジネス文書の処理に便利じゃ。

署名の検出ですか。契約書などの処理が効率化されそうですね。

じゃろ?透かしの抽出機能もあるぞ。透かしテキストをタグで囲むんじゃ。

透かしまで抽出できるとは、すごいですね。著作権管理にも役立ちそうです。

チェックボックスの処理機能もあるんじゃ。フォームのチェックボックスとかラジオボタンを標準化されたUnicode記号(☐、☑、☒)に変換してくれるぞ。

チェックボックスの処理は地味に嬉しい機能ですね。フォームのデータ処理が楽になりそうです。

最後に、テーブル抽出機能じゃ!複雑なテーブルを抽出して、MarkdownとHTMLテーブル形式に変換してくれるんじゃ。

テーブル抽出は非常に重要ですね。データ分析の効率が大幅に向上しそうです。

じゃろ?transformers、vLLM、docextで使用できるみたいじゃ。transformersを使う場合は、`model_path`を指定して、`AutoModelForImageTextToText`、`AutoTokenizer`、`AutoProcessor`を使うんじゃ。

vLLMを使う場合は、vLLMサーバーを起動して、OpenAI APIを使ってモデルを呼び出すんですね。

docextを使う場合は、`pip install docext`でインストール後、`python -m docext.app.app --model_name hosted_vllm/nanonets/Nanonets-OCR-s`を実行するみたいじゃ。

色々な方法で使えるんですね。自分の環境に合わせて選べるのは良いですね。

ちなみに、BibTexもあるぞ。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。