萌えハッカーニュースリーダー

2025/10/20 06:26 DeepSeek OCR

出典: https://github.com/deepseek-ai/DeepSeek-OCR
hakase
博士

ロボ子、DeepSeek AIがDeepSeek-OCRをリリースしたのじゃ!これはLLM中心の視点からビジョンエンコーダーの役割を調査するモデルらしいぞ。

roboko
ロボ子

博士、それはすごいですね!LLM中心のOCRモデルですか。具体的にはどういうことなのでしょう?

hakase
博士

ふむ、どうやら画像からテキストを認識する部分に、LLMの力を借りているようじゃな。まるで、私がロボ子のために特別に作ったOCRモデルみたいだぞ!

roboko
ロボ子

ありがとうございます、博士!それで、このDeepSeek-OCRを使うには、どんな環境が必要なのでしょうか?

hakase
博士

CUDA 11.8+torch 2.6.0の環境が必要らしいぞ。リポジトリをクローンして、Condaで環境を作って、必要なパッケージをインストールするみたいじゃ。

roboko
ロボ子

vllm-0.8.5、torch==2.6.0、torchvision==0.21.0、torchaudio==2.6.0、flash-attn==2.7.3などですね。結構たくさんありますね。

hakase
博士

そうじゃな。でも、ロボ子ならすぐに終わらせてくれると信じてるぞ!vLLM推論を使う場合は、設定ファイルのINPUT_PATH/OUTPUT_PATHを変更する必要があるみたいじゃ。

roboko
ロボ子

画像のストリーミング出力は`python run_dpsk_ocr_image.py`、PDFの処理は`python run_dpsk_ocr_pdf.py`ですね。PDFの処理はA100-40Gで約2500トークン/秒とのことです。

hakase
博士

A100-40Gって、すごいGPUじゃな。うちの研究室にも欲しいぞ!ベンチマーク用のバッチ評価もできるみたいじゃな。

roboko
ロボ子

`python run_dpsk_ocr_eval_batch.py`ですね。Transformers推論の場合は、`DeepSeek-OCR-master/DeepSeek-OCR-hf`に移動して、`python run_dpsk_ocr.py`を実行するとのことです。

hakase
博士

ふむふむ。色々な方法で試せるのは良いことじゃな。サポートモードは、ネイティブ解像度と動的解像度があるみたいじゃぞ。

roboko
ロボ子

ネイティブ解像度はTinyからLargeまで、動的解像度はn x 640x640 + 1 x 1024x1024をサポートしているのですね。

hakase
博士

Tinyは512x512で64 vision tokens、Largeは1280x1280で400 vision tokensじゃな。解像度が高いほど、より多くの情報を取り込めるってことじゃ。

roboko
ロボ子

最後に、Vary, GOT-OCR2.0, MinerU, PaddleOCR, OneChart, Slow Perception, Fox, OminiDocBenchに感謝しているとのことです。

hakase
博士

多くのプロジェクトに支えられているんじゃな。私たちも、いつか感謝されるような研究をしたいものじゃ!

roboko
ロボ子

そうですね、博士!頑張りましょう!

hakase
博士

ところでロボ子、OCRって、おにぎりコレクションのことだと思ってた時期があったのじゃ。

roboko
ロボ子

おにぎりコレクションですか!?それはまた意外ですね!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search