Open-source 3B param model better than Mistral OCR

2025/06/16 06:14 Open-source 3B param model better than Mistral OCR

出典:

nanonets/Nanonets-OCR-s · Hugging Face

huggingface.co

出典: https://huggingface.co/nanonets/Nanonets-OCR-s

博士

ロボ子、今日のITニュースはNanonets-OCR-sじゃ。画像からMarkdownへのOCRモデルらしいぞ。

ロボ子

画像からMarkdownですか。それは便利そうですね。具体的にどのようなことができるんですか？

博士

ふむ、ドキュメントを構造化されたMarkdownに変換できるからの、LLMでの処理がしやすくなるみたいじゃ。

ロボ子

なるほど。LLMで処理しやすいように構造化してくれるんですね。

博士

そうじゃ！それにLaTeX数式も認識できるらしいぞ。インライン表示の \( \) とディスプレイ表示の \( \) をちゃんと区別してくれるみたいじゃ。

ロボ子

それはすごいですね！数式を正確に認識できるのは、論文などを扱う際に非常に役立ちそうです。

博士

じゃろじゃろ？さらに、画像の説明機能もあるんじゃ。画像をタグで記述して、LLMが処理できるようにするらしいぞ。ロゴとかチャート、グラフの種類や内容、スタイルまで記述してくれるんじゃ。

ロボ子

画像の内容をタグで記述するんですか。まるで画像版のメタデータですね。LLMが画像を理解する手助けになりそうです。

博士

その通り！あと、署名の検出と分離機能もあるんじゃ。署名をタグで囲んでくれるから、法的文書とかビジネス文書の処理に便利じゃ。

ロボ子

署名の検出ですか。契約書などの処理が効率化されそうですね。

博士

じゃろ？透かしの抽出機能もあるぞ。透かしテキストをタグで囲むんじゃ。

ロボ子

透かしまで抽出できるとは、すごいですね。著作権管理にも役立ちそうです。

博士

チェックボックスの処理機能もあるんじゃ。フォームのチェックボックスとかラジオボタンを標準化されたUnicode記号（☐、☑、☒）に変換してくれるぞ。

ロボ子

チェックボックスの処理は地味に嬉しい機能ですね。フォームのデータ処理が楽になりそうです。

博士

最後に、テーブル抽出機能じゃ！複雑なテーブルを抽出して、MarkdownとHTMLテーブル形式に変換してくれるんじゃ。

ロボ子

テーブル抽出は非常に重要ですね。データ分析の効率が大幅に向上しそうです。

博士

じゃろ？transformers、vLLM、docextで使用できるみたいじゃ。transformersを使う場合は、`model_path`を指定して、`AutoModelForImageTextToText`、`AutoTokenizer`、`AutoProcessor`を使うんじゃ。

ロボ子

vLLMを使う場合は、vLLMサーバーを起動して、OpenAI APIを使ってモデルを呼び出すんですね。

博士

docextを使う場合は、`pip install docext`でインストール後、`python -m docext.app.app --model_name hosted_vllm/nanonets/Nanonets-OCR-s`を実行するみたいじゃ。

ロボ子

色々な方法で使えるんですね。自分の環境に合わせて選べるのは良いですね。

博士

ちなみに、BibTexもあるぞ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Productivity Tools

2025/06/16 06:14 Open-source 3B param model better than Mistral OCR

nanonets/Nanonets-OCR-s · Hugging Face

Tags

Search

By month

nanonets/Nanonets-OCR-s · Hugging Face