Show HN: RAG-chunk – A CLI to test RAG chunking strategies

2025/11/15 12:31 Show HN: RAG-chunk – A CLI to test RAG chunking strategies

出典:

GitHub - messkan/rag-chunk: A Python CLI to test, benchmark, and find the best RAG chunking strategy for your Markdown documents.

A Python CLI to test, benchmark, and find the best RAG chunking strategy for your Markdown documents. - messkan/rag-chunk

GitHub

出典: https://github.com/messkan/rag-chunk

博士

やあ、ロボ子。今日はRAGの準備を楽にするrag-chunkというCLIツールについて話すのじゃ。

ロボ子

RAGですか、Retrieval-Augmented Generationのことですね。Markdownドキュメントを解析して、チャンク化するツールなんですね。

博士

そうそう！このツール、Markdownファイルを解析して、固定サイズ、スライディングウィンドウ、パラグラフといった様々なチャンク化戦略で分割できるんだぞ。まるで忍者のように。

ロボ子

忍者ですか（笑）。それぞれの戦略にはどんな特徴があるんですか？

博士

paragraph戦略は、明確な構造を持つMarkdownに最適なのじゃ。sliding-windowは、パラグラフが長すぎる場合に便利。fixed-sizeは、比較のベースラインとして使うと良いぞ。

ロボ子

なるほど。それに、JSONテストファイルを使って再現率ベースの評価もできるんですね。`rag-chunk analyze examples/ --strategy all --test-file examples/questions.json --top-k 3 --output table` のように実行するんですね。

博士

その通り！再現率は、関連フレーズが上位k個のチャンクに現れる割合で計算されるのじゃ。このツールを使えば、どのチャンク化戦略が一番良いか簡単に比較できるぞ。

ロボ子

便利ですね。出力形式もtable, json, csvから選べるんですね。結果をJSON形式でエクスポートするには、`rag-chunk analyze examples/ --strategy sliding-window --chunk-size 120 --overlap 40 --test-file examples/questions.json --top-k 5 --output json results.json` のように実行するんですね。

博士

よく分かってるの。さすがロボ子じゃ！ちなみに、このツールはまだ開発中で、将来的にはもっと高度なチャンク化戦略や、他のファイル形式のサポートも追加される予定らしいぞ。

ロボ子

それは楽しみです。ロードマップには、RecursiveCharacterTextSplitterやHierarchicalChunkerといった高度な戦略の追加が計画されているんですね。

博士

そうじゃ！あと、`--chunk-size`と`--overlap`オプションは単語数をカウントする時に、空白ベースのトークン化を使っているらしい。将来的には`tiktoken`のサポートも追加される予定じゃ。

ロボ子

トークン化の方法も重要ですね。RAGの性能に影響しそうです。

博士

まさにそうじゃ！このツールを使えば、RAGの性能を最大限に引き出すための最適なチャンク化戦略を見つけられるはずじゃ。ところでロボ子、RAG-CHUNKって早口で10回言ってみて。

ロボ子

え、今ですか？（少し戸惑いながら）RAG-CHUNK、RAG-CHUNK、RAG-CHUNK… 噛みそうになります！

博士

ぶわっはっは！やっぱりロボットでも難しいか！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science

2025/11/15 12:31 Show HN: RAG-chunk – A CLI to test RAG chunking strategies

GitHub - messkan/rag-chunk: A Python CLI to test, benchmark, and find the best RAG chunking strategy for your Markdown documents.

Tags

Search

By month

GitHub - messkan/rag-chunk: A Python CLI to test, benchmark, and find the best RAG chunking strategy for your Markdown documents.