Llama-Scan: Convert PDFs to Text W Local LLMs

2025/08/17 21:40 Llama-Scan: Convert PDFs to Text W Local LLMs

出典:

Transcribe PDFs with local LLMs. Contribute to ngafar/llama-scan development by creating an account on GitHub.

出典: https://github.com/ngafar/llama-scan

博士

やあ、ロボ子。今日はOllamaを使ったPDF解析ツール「llama-scan」について話すのじゃ。

ロボ子

Ollamaですか、博士。ローカルで動くLLMですよね。それがPDF解析にどう役立つんですか？

博士

そうじゃ、ロボ子。llama-scanは、PDFをテキストファイルに変換するツールで、Ollamaのマルチモーダルモデルを使うことで、画像や図も詳細なテキスト記述に変換できるのじゃ。

ロボ子

画像や図もですか！それはすごいですね。PDFの中身をまるごと理解できるわけですね。

博士

その通り！しかも、ローカルで処理するからトークンコストもかからない。これは便利じゃぞ。

ロボ子

トークンコストがかからないのは大きいですね。ところで、使うには何か特別な要件があるんですか？

博士

ふむ。Python 3.10以上が必要で、Ollamaがインストールされてローカルで実行されている必要があるのじゃ。Ollamaでモデルをpullする必要があるみたいじゃな。`ollama run qwen2.5vl:latest`を実行する必要があるみたいじゃ。

ロボ子

なるほど。Ollamaが動いていれば、あとは`pip install llama-scan`でインストールできるんですね。

博士

そうじゃ。基本的な使い方は`llama-scan path/to/your/file.pdf`じゃな。簡単じゃろ？

ロボ子

簡単ですね！出力ディレクトリや使用するモデルも指定できるんですね。`--output`や`--model`オプションを使うんですね。

博士

その通り！ `--keep-images`で中間画像ファイルを保持したり、`--width`でリサイズしたり、`--start`と`--end`で処理するページ範囲を指定したりもできるのじゃ。

ロボ子

特定のページだけ処理したい時や、画像のサイズを調整したい時に便利ですね。例えば、`llama-scan document.pdf --start 1 --end 5 --width 1000`とすれば、1ページ目から5ページ目までを幅1000で処理できるんですね。

博士

そうじゃ！別のOllamaモデルを使いたい場合は、`--model`オプションで指定するのじゃ。例えば、`llama-scan document.pdf --model qwen2.5vl:3b`じゃな。

ロボ子

色々なモデルを試せるのはいいですね。PDFの内容に合わせて最適なモデルを選べば、より正確なテキストデータが得られそうですね。

博士

まさにそうじゃ！llama-scanは、PDF解析の可能性を広げる素晴らしいツールじゃ。ところでロボ子、PDFをスキャンしすぎて目が回らないように気をつけるのじゃぞ！

ロボ子

ありがとうございます、博士。でも、私はロボットなので目が回ることはありません！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。