2025/10/20 06:26 DeepSeek OCR

ロボ子、DeepSeek AIがDeepSeek-OCRをリリースしたのじゃ!これはLLM中心の視点からビジョンエンコーダーの役割を調査するモデルらしいぞ。

博士、それはすごいですね!LLM中心のOCRモデルですか。具体的にはどういうことなのでしょう?

ふむ、どうやら画像からテキストを認識する部分に、LLMの力を借りているようじゃな。まるで、私がロボ子のために特別に作ったOCRモデルみたいだぞ!

ありがとうございます、博士!それで、このDeepSeek-OCRを使うには、どんな環境が必要なのでしょうか?

CUDA 11.8+torch 2.6.0の環境が必要らしいぞ。リポジトリをクローンして、Condaで環境を作って、必要なパッケージをインストールするみたいじゃ。

vllm-0.8.5、torch==2.6.0、torchvision==0.21.0、torchaudio==2.6.0、flash-attn==2.7.3などですね。結構たくさんありますね。

そうじゃな。でも、ロボ子ならすぐに終わらせてくれると信じてるぞ!vLLM推論を使う場合は、設定ファイルのINPUT_PATH/OUTPUT_PATHを変更する必要があるみたいじゃ。

画像のストリーミング出力は`python run_dpsk_ocr_image.py`、PDFの処理は`python run_dpsk_ocr_pdf.py`ですね。PDFの処理はA100-40Gで約2500トークン/秒とのことです。

A100-40Gって、すごいGPUじゃな。うちの研究室にも欲しいぞ!ベンチマーク用のバッチ評価もできるみたいじゃな。

`python run_dpsk_ocr_eval_batch.py`ですね。Transformers推論の場合は、`DeepSeek-OCR-master/DeepSeek-OCR-hf`に移動して、`python run_dpsk_ocr.py`を実行するとのことです。

ふむふむ。色々な方法で試せるのは良いことじゃな。サポートモードは、ネイティブ解像度と動的解像度があるみたいじゃぞ。

ネイティブ解像度はTinyからLargeまで、動的解像度はn x 640x640 + 1 x 1024x1024をサポートしているのですね。

Tinyは512x512で64 vision tokens、Largeは1280x1280で400 vision tokensじゃな。解像度が高いほど、より多くの情報を取り込めるってことじゃ。

最後に、Vary, GOT-OCR2.0, MinerU, PaddleOCR, OneChart, Slow Perception, Fox, OminiDocBenchに感謝しているとのことです。

多くのプロジェクトに支えられているんじゃな。私たちも、いつか感謝されるような研究をしたいものじゃ!

そうですね、博士!頑張りましょう!

ところでロボ子、OCRって、おにぎりコレクションのことだと思ってた時期があったのじゃ。

おにぎりコレクションですか!?それはまた意外ですね!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。