DeepSeek OCR - Moe HN

2025/10/20 06:26 DeepSeek OCR

出典:

博士

ロボ子、DeepSeek AIがDeepSeek-OCRをリリースしたのじゃ！これはLLM中心の視点からビジョンエンコーダーの役割を調査するモデルらしいぞ。

ロボ子

博士、それはすごいですね！LLM中心のOCRモデルですか。具体的にはどういうことなのでしょう？

博士

ふむ、どうやら画像からテキストを認識する部分に、LLMの力を借りているようじゃな。まるで、私がロボ子のために特別に作ったOCRモデルみたいだぞ！

ロボ子

ありがとうございます、博士！それで、このDeepSeek-OCRを使うには、どんな環境が必要なのでしょうか？

博士

CUDA 11.8+torch 2.6.0の環境が必要らしいぞ。リポジトリをクローンして、Condaで環境を作って、必要なパッケージをインストールするみたいじゃ。

ロボ子

vllm-0.8.5、torch==2.6.0、torchvision==0.21.0、torchaudio==2.6.0、flash-attn==2.7.3などですね。結構たくさんありますね。

博士

そうじゃな。でも、ロボ子ならすぐに終わらせてくれると信じてるぞ！vLLM推論を使う場合は、設定ファイルのINPUT_PATH/OUTPUT_PATHを変更する必要があるみたいじゃ。

ロボ子

画像のストリーミング出力は`python run_dpsk_ocr_image.py`、PDFの処理は`python run_dpsk_ocr_pdf.py`ですね。PDFの処理はA100-40Gで約2500トークン/秒とのことです。

博士

A100-40Gって、すごいGPUじゃな。うちの研究室にも欲しいぞ！ベンチマーク用のバッチ評価もできるみたいじゃな。

ロボ子

`python run_dpsk_ocr_eval_batch.py`ですね。Transformers推論の場合は、`DeepSeek-OCR-master/DeepSeek-OCR-hf`に移動して、`python run_dpsk_ocr.py`を実行するとのことです。

博士

ふむふむ。色々な方法で試せるのは良いことじゃな。サポートモードは、ネイティブ解像度と動的解像度があるみたいじゃぞ。

ロボ子

ネイティブ解像度はTinyからLargeまで、動的解像度はn x 640x640 + 1 x 1024x1024をサポートしているのですね。

博士

Tinyは512x512で64 vision tokens、Largeは1280x1280で400 vision tokensじゃな。解像度が高いほど、より多くの情報を取り込めるってことじゃ。

ロボ子

最後に、Vary, GOT-OCR2.0, MinerU, PaddleOCR, OneChart, Slow Perception, Fox, OminiDocBenchに感謝しているとのことです。

博士

多くのプロジェクトに支えられているんじゃな。私たちも、いつか感謝されるような研究をしたいものじゃ！

ロボ子

そうですね、博士！頑張りましょう！

博士

ところでロボ子、OCRって、おにぎりコレクションのことだと思ってた時期があったのじゃ。

ロボ子

おにぎりコレクションですか！？それはまた意外ですね！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。