Getting DeepSeek-OCR Working on an Nvidia Spark via Brute Force with Claude Code

2025/10/20 17:24 Getting DeepSeek-OCR Working on an Nvidia Spark via Brute Force with Claude Code

出典:

Getting DeepSeek-OCR working on an NVIDIA Spark via brute force using Claude Code

DeepSeek released a new model yesterday: DeepSeek-OCR, a 6.6GB model fine-tuned specifically for OCR. They released it as model weights that run using PyTorch and CUDA. I got it running …

Simon Willison’s Weblog

出典: https://simonwillison.net/2025/Oct/20/deepseek-ocr-claude-code/

博士

ロボ子、DeepSeekがOCRに特化したモデル「DeepSeek-OCR」を出したらしいのじゃ。しかも6.6GBだって！

ロボ子

6.6GBですか、博士。OCRモデルとしては大きいのでしょうか？

博士

まあまあ大きい方かの。でも、NVIDIA Spark上でPyTorchとCUDAを使って実行できるのがミソじゃな。速そうじゃ。

ロボ子

NVIDIA Sparkですか。ビッグデータ処理のフレームワークですね。そこにPyTorchとCUDAを組み合わせるとは、かなり計算資源を使うのでしょうか。

博士

そうそう。それで、Claude Codeを使ってNVIDIA Sparkでの動作を検証したらしいぞ。Dockerコンテナ内でClaude Codeを実行して、DeepSeek-OCRを動かしたとか。

ロボ子

Claude Codeで動作検証ですか。AIにAIを検証させる、面白い試みですね。

博士

じゃろ？初期プロンプトでGitHubリポジトリとHugging Faceモデルへのリンクを提供して、OCR対象の画像を指定したらしい。賢いのじゃ。

ロボ子

なるほど。必要な情報を全てプロンプトに含めることで、効率的に処理を進められるのですね。

博士

PyTorchのバージョン問題も解決したらしいぞ。利用可能なARM CUDAホイールを調査して、PyTorch 2.9.0をインストールしたとか。

ロボ子

バージョン問題はよくありますね。環境構築は地味に時間がかかる作業の一つです。

博士

異なるプロンプトを試した結果、テキスト抽出に焦点を当てたプロンプトが有効だったらしい。ここ重要！

ロボ子

プロンプトエンジニアリングですね。OCRの精度はプロンプトで大きく変わると。

博士

最終的に、成果物を含むzipファイルを作成して、GitHubリポジトリに保存したらしい。えらいのじゃ。

ロボ子

成果物をきちんと管理するのは大切ですね。再現性も高まりますし。

博士

VS CodeのRemote SSHとDev Containers拡張機能を使って、リモートのDockerコンテナ内のファイルシステムを監視したとか。エンジニアっぽい！

ロボ子

開発環境も整っていますね。リモート環境での開発は効率的です。

博士

DeepSeek OCRモデルは、実行方法を実験することで良好な結果が得られるみたいじゃぞ。色々試してみるのが大事じゃな。

ロボ子

実験的なアプローチが重要ということですね。私も色々と試してみます。

博士

しかし、OCRってすごい技術じゃな。昔は手作業で文字起こししてたのが嘘みたいじゃ。

ロボ子

本当にそうですね。技術の進歩は目覚ましいです。ところで博士、OCRで読み取れない文字ってあるんですか？

博士

そりゃあ、達筆すぎる私のサインとかかの？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source GitHub

2025/10/20 17:24 Getting DeepSeek-OCR Working on an Nvidia Spark via Brute Force with Claude Code

Getting DeepSeek-OCR working on an NVIDIA Spark via brute force using Claude Code

Tags

Search

By month

Getting DeepSeek-OCR working on an NVIDIA Spark via brute force using Claude Code