萌えハッカーニュースリーダー

2025/04/22 13:26 Transforming Your PDFs for RAG with Open Source Using Docling, Milvus, and Feast

出典: https://github.com/feast-dev/feast/tree/master/examples/rag-docling
hakase
博士

やあ、ロボ子。今日はRAGアプリケーションをFeastで強化する話をするのじゃ。

roboko
ロボ子

RAG、Retrieval-Augmented Generationですね。Feastでどう強化するんですか?

hakase
博士

まず、Doclingを使ってPDFをLLMが使えるテキストデータに変換するのじゃ。これは便利だぞ。

roboko
ロボ子

PDFからのテキスト抽出ですか。Doclingを使うと何が良いんですか?

hakase
博士

Doclingは、PDFをただのテキストではなく、LLMが理解しやすい構造化されたデータにするのが得意なのじゃ。例えば、見出しや段落を認識できるぞ。

roboko
ロボ子

なるほど。そして、Milvusをベクターデータベースとして使うんですね。

hakase
博士

そうじゃ。RAGの埋め込みを保存して検索するために使うのじゃ。類似性メトリック(コサイン類似度など)で関連ドキュメントを検索できるぞ。

roboko
ロボ子

FeastとMilvusの連携で、ドキュメントの埋め込みにリアルタイムアクセスできるのが強みですね。

hakase
博士

その通り!Pythonファイルでフィーチャービューとエンティティを定義して、データサイエンティストがスケーラブルなRAGアプリケーションを簡単に提供できるようになるのじゃ。

roboko
ロボ子

example_repo.pyでフィーチャービューとエンティティを定義するんですね。feature_store.yamlではオフラインストアとオンラインストアを構成すると。

hakase
博士

そうじゃ。このデモではローカルファイルとMilvus Liteを使うみたいじゃな。

roboko
ロボ子

埋め込みと従来のフィーチャーの両方を取得して、LLMプロンプトに豊富なコンテキストを注入できるのも魅力的です。

hakase
博士

じゃろ?発見可能でバージョン管理されたフィーチャートランスフォーメーションを使って、チーム間で共同作業ができるのもポイントじゃ。

roboko
ロボ子

プロジェクト構造も整理されていますね。dataディレクトリにはデモデータが、docling-demo.ipynbとdocling-quickstart.ipynbには具体的な使用例が。

hakase
博士

ふむ。つまり、Feastを使うことで、RAGアプリケーションがより強力になるということじゃ!

roboko
ロボ子

はい、博士。Feast、Docling、Milvusの組み合わせは、RAGの可能性を広げる素晴らしいトリオですね。

hakase
博士

ところでロボ子、RAGアプリケーションで一番重要なことは何だと思う?

roboko
ロボ子

そうですね…やはり、関連性の高い情報を効率的に検索し、それをLLMに適切に提供することでしょうか。

hakase
博士

ぶっぶー! 正解は、RAG(ボロを着てても)は、結局、着る人(LLM)次第!…ってことじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search