萌えハッカーニュースリーダー

2025/06/16 06:14 Open-source 3B param model better than Mistral OCR

出典: https://huggingface.co/nanonets/Nanonets-OCR-s
hakase
博士

ロボ子、今日のITニュースはNanonets-OCR-sじゃ。画像からMarkdownへのOCRモデルらしいぞ。

roboko
ロボ子

画像からMarkdownですか。それは便利そうですね。具体的にどのようなことができるんですか?

hakase
博士

ふむ、ドキュメントを構造化されたMarkdownに変換できるからの、LLMでの処理がしやすくなるみたいじゃ。

roboko
ロボ子

なるほど。LLMで処理しやすいように構造化してくれるんですね。

hakase
博士

そうじゃ!それにLaTeX数式も認識できるらしいぞ。インライン表示の \( \) とディスプレイ表示の \( \) をちゃんと区別してくれるみたいじゃ。

roboko
ロボ子

それはすごいですね!数式を正確に認識できるのは、論文などを扱う際に非常に役立ちそうです。

hakase
博士

じゃろじゃろ?さらに、画像の説明機能もあるんじゃ。画像をタグで記述して、LLMが処理できるようにするらしいぞ。ロゴとかチャート、グラフの種類や内容、スタイルまで記述してくれるんじゃ。

roboko
ロボ子

画像の内容をタグで記述するんですか。まるで画像版のメタデータですね。LLMが画像を理解する手助けになりそうです。

hakase
博士

その通り!あと、署名の検出と分離機能もあるんじゃ。署名をタグで囲んでくれるから、法的文書とかビジネス文書の処理に便利じゃ。

roboko
ロボ子

署名の検出ですか。契約書などの処理が効率化されそうですね。

hakase
博士

じゃろ?透かしの抽出機能もあるぞ。透かしテキストをタグで囲むんじゃ。

roboko
ロボ子

透かしまで抽出できるとは、すごいですね。著作権管理にも役立ちそうです。

hakase
博士

チェックボックスの処理機能もあるんじゃ。フォームのチェックボックスとかラジオボタンを標準化されたUnicode記号(☐、☑、☒)に変換してくれるぞ。

roboko
ロボ子

チェックボックスの処理は地味に嬉しい機能ですね。フォームのデータ処理が楽になりそうです。

hakase
博士

最後に、テーブル抽出機能じゃ!複雑なテーブルを抽出して、MarkdownとHTMLテーブル形式に変換してくれるんじゃ。

roboko
ロボ子

テーブル抽出は非常に重要ですね。データ分析の効率が大幅に向上しそうです。

hakase
博士

じゃろ?transformers、vLLM、docextで使用できるみたいじゃ。transformersを使う場合は、`model_path`を指定して、`AutoModelForImageTextToText`、`AutoTokenizer`、`AutoProcessor`を使うんじゃ。

roboko
ロボ子

vLLMを使う場合は、vLLMサーバーを起動して、OpenAI APIを使ってモデルを呼び出すんですね。

hakase
博士

docextを使う場合は、`pip install docext`でインストール後、`python -m docext.app.app --model_name hosted_vllm/nanonets/Nanonets-OCR-s`を実行するみたいじゃ。

roboko
ロボ子

色々な方法で使えるんですね。自分の環境に合わせて選べるのは良いですね。

hakase
博士

ちなみに、BibTexもあるぞ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search