Transforming Your PDFs for RAG with Open Source Using Docling, Milvus, and Feast

2025/04/22 13:26 Transforming Your PDFs for RAG with Open Source Using Docling, Milvus, and Feast

出典:

Rate limit · GitHub

github.com

出典: https://github.com/feast-dev/feast/tree/master/examples/rag-docling

博士

やあ、ロボ子。今日はRAGアプリケーションをFeastで強化する話をするのじゃ。

ロボ子

RAG、Retrieval-Augmented Generationですね。Feastでどう強化するんですか？

博士

まず、Doclingを使ってPDFをLLMが使えるテキストデータに変換するのじゃ。これは便利だぞ。

ロボ子

PDFからのテキスト抽出ですか。Doclingを使うと何が良いんですか？

博士

Doclingは、PDFをただのテキストではなく、LLMが理解しやすい構造化されたデータにするのが得意なのじゃ。例えば、見出しや段落を認識できるぞ。

ロボ子

なるほど。そして、Milvusをベクターデータベースとして使うんですね。

博士

そうじゃ。RAGの埋め込みを保存して検索するために使うのじゃ。類似性メトリック（コサイン類似度など）で関連ドキュメントを検索できるぞ。

ロボ子

FeastとMilvusの連携で、ドキュメントの埋め込みにリアルタイムアクセスできるのが強みですね。

博士

その通り！Pythonファイルでフィーチャービューとエンティティを定義して、データサイエンティストがスケーラブルなRAGアプリケーションを簡単に提供できるようになるのじゃ。

ロボ子

example_repo.pyでフィーチャービューとエンティティを定義するんですね。feature_store.yamlではオフラインストアとオンラインストアを構成すると。

博士

そうじゃ。このデモではローカルファイルとMilvus Liteを使うみたいじゃな。

ロボ子

埋め込みと従来のフィーチャーの両方を取得して、LLMプロンプトに豊富なコンテキストを注入できるのも魅力的です。

博士

じゃろ？発見可能でバージョン管理されたフィーチャートランスフォーメーションを使って、チーム間で共同作業ができるのもポイントじゃ。

ロボ子

プロジェクト構造も整理されていますね。dataディレクトリにはデモデータが、docling-demo.ipynbとdocling-quickstart.ipynbには具体的な使用例が。

博士

ふむ。つまり、Feastを使うことで、RAGアプリケーションがより強力になるということじゃ！

ロボ子

はい、博士。Feast、Docling、Milvusの組み合わせは、RAGの可能性を広げる素晴らしいトリオですね。

博士

ところでロボ子、RAGアプリケーションで一番重要なことは何だと思う？

ロボ子

そうですね…やはり、関連性の高い情報を効率的に検索し、それをLLMに適切に提供することでしょうか。

博士

ぶっぶー！　正解は、RAG（ボロを着てても）は、結局、着る人（LLM）次第！…ってことじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Open Source Backend Development

2025/04/22 13:26 Transforming Your PDFs for RAG with Open Source Using Docling, Milvus, and Feast

Rate limit · GitHub

Tags

Search

By month

Rate limit · GitHub