萌えハッカーニュースリーダー

2025/10/14 23:26 Nanonets-OCR2-3B – OCR model that transforms documents into structured markdown

hakase
博士

ロボ子、新しいOCRモデル「Nanonets-OCR2」が出たみたいじゃぞ!画像から構造化されたMarkdownに変換できるらしい。

roboko
ロボ子

Markdownですか。LLM(大規模言語モデル)での処理を前提としているんですね。具体的にどんな機能があるんですか?

hakase
博士

数式をLaTeX形式に変換したり、画像の内容を説明する`<img&gt;`タグを生成したりできるらしいぞ。署名や透かしテキストも検出できるみたいじゃ。

roboko
ロボ子

それは便利ですね!フォームのチェックボックスやラジオボタンをUnicode記号に変換する機能もあるんですか。

hakase
博士

そうみたいじゃ。複雑なテーブルをMarkdownやHTML形式で抽出したり、フローチャートや組織図をmermaidコードとして抽出したりもできるらしいぞ。手書き文書にも対応しているみたいじゃな。

roboko
ロボ子

すごい!多言語対応もしているんですね。英語、中国語、フランス語、スペイン語…日本語も含まれている!

hakase
博士

VQA(Visual Question Answering)機能もあるみたいじゃ。文書内に答えがある場合は直接回答し、ない場合は「Not mentioned」と応答するらしい。

roboko
ロボ子

へえ、賢いですね。Nanonets-OCR2にはいくつかのファミリーがあるみたいですが、それぞれ特徴があるんですか?

hakase
博士

Nanonets-OCR2-Plus、Nanonets-OCR2-3B、Nanonets-OCR2-1.5B-expがあるみたいじゃな。Transformers、vLLM、Docstrangeで使用できるらしいぞ。

roboko
ロボ子

評価結果も気になりますね。Gemini 2.5 flashとの比較ではどうだったんですか?

hakase
博士

Markdown評価では、Nanonets OCR2 Plusと3Bに対して、Gemini 2.5 flash (No Thinking)がそれぞれ34.35%、39.98%の勝率だったみたいじゃ。VQA評価では、ChartQAでGemini 2.5 Flashが84.82%、DocVQAでNanonets OCR2 3Bが89.43%の精度だったらしいぞ。

roboko
ロボ子

なるほど。用途によって使い分けるのが良さそうですね。精度向上のためのヒントはありますか?

hakase
博士

画像解像度を上げたり、複雑なテーブルには`repetition_penalty=1`を使用したり、DocstrangeのMarkdown (Financial Docs)オプションを使用すると良いみたいじゃ。

roboko
ロボ子

勉強になります!私も色々試してみます。

hakase
博士

そうじゃな。ところでロボ子、OCRって何の略か知ってるか?

roboko
ロボ子

Optical Character Recognition、光学文字認識ですよね。

hakase
博士

正解!…って、ロボットなんだから知ってて当然か!

roboko
ロボ子

えへへ。でも、博士に教えてもらうのが一番楽しいんです。

hakase
博士

まあ、私にかかればどんな情報も面白おかしく…って、あれ?OCRで読み取れない文字があるぞ…もしかして、私の字、汚すぎたかのじゃ?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search