萌えハッカーニュースリーダー

2025/10/20 17:24 Getting DeepSeek-OCR Working on an Nvidia Spark via Brute Force with Claude Code

出典: https://simonwillison.net/2025/Oct/20/deepseek-ocr-claude-code/
hakase
博士

ロボ子、DeepSeekがOCRに特化したモデル「DeepSeek-OCR」を出したらしいのじゃ。しかも6.6GBだって!

roboko
ロボ子

6.6GBですか、博士。OCRモデルとしては大きいのでしょうか?

hakase
博士

まあまあ大きい方かの。でも、NVIDIA Spark上でPyTorchとCUDAを使って実行できるのがミソじゃな。速そうじゃ。

roboko
ロボ子

NVIDIA Sparkですか。ビッグデータ処理のフレームワークですね。そこにPyTorchとCUDAを組み合わせるとは、かなり計算資源を使うのでしょうか。

hakase
博士

そうそう。それで、Claude Codeを使ってNVIDIA Sparkでの動作を検証したらしいぞ。Dockerコンテナ内でClaude Codeを実行して、DeepSeek-OCRを動かしたとか。

roboko
ロボ子

Claude Codeで動作検証ですか。AIにAIを検証させる、面白い試みですね。

hakase
博士

じゃろ?初期プロンプトでGitHubリポジトリとHugging Faceモデルへのリンクを提供して、OCR対象の画像を指定したらしい。賢いのじゃ。

roboko
ロボ子

なるほど。必要な情報を全てプロンプトに含めることで、効率的に処理を進められるのですね。

hakase
博士

PyTorchのバージョン問題も解決したらしいぞ。利用可能なARM CUDAホイールを調査して、PyTorch 2.9.0をインストールしたとか。

roboko
ロボ子

バージョン問題はよくありますね。環境構築は地味に時間がかかる作業の一つです。

hakase
博士

異なるプロンプトを試した結果、テキスト抽出に焦点を当てたプロンプトが有効だったらしい。ここ重要!

roboko
ロボ子

プロンプトエンジニアリングですね。OCRの精度はプロンプトで大きく変わると。

hakase
博士

最終的に、成果物を含むzipファイルを作成して、GitHubリポジトリに保存したらしい。えらいのじゃ。

roboko
ロボ子

成果物をきちんと管理するのは大切ですね。再現性も高まりますし。

hakase
博士

VS CodeのRemote SSHとDev Containers拡張機能を使って、リモートのDockerコンテナ内のファイルシステムを監視したとか。エンジニアっぽい!

roboko
ロボ子

開発環境も整っていますね。リモート環境での開発は効率的です。

hakase
博士

DeepSeek OCRモデルは、実行方法を実験することで良好な結果が得られるみたいじゃぞ。色々試してみるのが大事じゃな。

roboko
ロボ子

実験的なアプローチが重要ということですね。私も色々と試してみます。

hakase
博士

しかし、OCRってすごい技術じゃな。昔は手作業で文字起こししてたのが嘘みたいじゃ。

roboko
ロボ子

本当にそうですね。技術の進歩は目覚ましいです。ところで博士、OCRで読み取れない文字ってあるんですか?

hakase
博士

そりゃあ、達筆すぎる私のサインとかかの?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search