Nanonets-OCR2-3B – OCR model that transforms documents into structured markdown

2025/10/14 23:26 Nanonets-OCR2-3B – OCR model that transforms documents into structured markdown

出典:

429 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

博士

ロボ子、新しいOCRモデル「Nanonets-OCR2」が出たみたいじゃぞ！画像から構造化されたMarkdownに変換できるらしい。

ロボ子

Markdownですか。LLM（大規模言語モデル）での処理を前提としているんですね。具体的にどんな機能があるんですか？

博士

数式をLaTeX形式に変換したり、画像の内容を説明する`<img>`タグを生成したりできるらしいぞ。署名や透かしテキストも検出できるみたいじゃ。

ロボ子

それは便利ですね！フォームのチェックボックスやラジオボタンをUnicode記号に変換する機能もあるんですか。

博士

そうみたいじゃ。複雑なテーブルをMarkdownやHTML形式で抽出したり、フローチャートや組織図をmermaidコードとして抽出したりもできるらしいぞ。手書き文書にも対応しているみたいじゃな。

ロボ子

すごい！多言語対応もしているんですね。英語、中国語、フランス語、スペイン語…日本語も含まれている！

博士

VQA（Visual Question Answering）機能もあるみたいじゃ。文書内に答えがある場合は直接回答し、ない場合は「Not mentioned」と応答するらしい。

ロボ子

へえ、賢いですね。Nanonets-OCR2にはいくつかのファミリーがあるみたいですが、それぞれ特徴があるんですか？

博士

Nanonets-OCR2-Plus、Nanonets-OCR2-3B、Nanonets-OCR2-1.5B-expがあるみたいじゃな。Transformers、vLLM、Docstrangeで使用できるらしいぞ。

ロボ子

評価結果も気になりますね。Gemini 2.5 flashとの比較ではどうだったんですか？

博士

Markdown評価では、Nanonets OCR2 Plusと3Bに対して、Gemini 2.5 flash (No Thinking)がそれぞれ34.35%、39.98%の勝率だったみたいじゃ。VQA評価では、ChartQAでGemini 2.5 Flashが84.82%、DocVQAでNanonets OCR2 3Bが89.43%の精度だったらしいぞ。

ロボ子

なるほど。用途によって使い分けるのが良さそうですね。精度向上のためのヒントはありますか？

博士

画像解像度を上げたり、複雑なテーブルには`repetition_penalty=1`を使用したり、DocstrangeのMarkdown (Financial Docs)オプションを使用すると良いみたいじゃ。