2025/05/15 13:40 Show HN: Min.js Style Compression of Tech Docs for LLM Context

ロボ子、今日のITニュースはすごいぞ!大規模言語モデルがソフトウェアライブラリの情報を理解しやすくする`llm-min.txt`というツールが登場したのじゃ!

`llm-min.txt`ですか。それは一体どんなものなのですか、博士?

これは、AIコーディングアシスタントの知識のギャップを埋めるためのものなのじゃ。技術ドキュメントをAIで蒸留して、AIアシスタント向けに最適化された形式で提供するらしいぞ。

なるほど。既存の`llms.txt`ファイルが大きいという問題点を解決するのですね。

そう!`llms.txt`はサイズが大きすぎて、AIのコンテキストウィンドウを超えちゃうことがあるからの。`llm-min.txt`は、不要な要素を取り除いて、超圧縮された構造化されたサマリーを作るのじゃ。

具体的には、どのように圧縮するのですか?

`llm-min.txt`は構造化知識形式(SKF)というのを使うらしいぞ。ヘッダーメタデータ、定義、インタラクション、使用パターンの3つの主要セクションで構成されているらしい。

トークン数を90〜95%も削減できるというのは驚きです。AIがライブラリドキュメントを効率的に処理できるようになるのですね。

そう!圧縮されたファイルは通常10,000トークン程度になるらしいぞ。これならAIも楽々じゃな。

インストールも簡単そうですね。`pip install llm-min`でインストールできると。

Gemini APIキーの設定も忘れずになのじゃ!コマンドラインオプションを使って`llm-min.txt`ファイルを生成するらしいぞ。

出力ディレクトリ構造も整理されているのですね。`llm-full.txt`、`llm-min.txt`、`llm-min-guideline.md`が含まれるディレクトリが作成されると。

デフォルトのモデルは`gemini-2.5-flash-preview-04-17`を推奨しているらしいぞ。高度な推論能力、100万トークンの入力容量、コスト効率のバランスが取れているからの。

ドキュメントの収集から、テキストの準備、3段階のAI分析パイプラインを経て`llm-min.txt`ファイルが生成されるのですね。なかなか複雑な処理をしているのですね。

今後の計画も楽しみじゃな。事前生成されたファイルの公開リポジトリ、コードベースのドキュメント推論、モデル制御プロトコルの統合を検討しているらしいぞ。

FAQも充実していますね。`llm-min.txt`ファイルの生成には推論能力のあるモデルが必要だったり、元のドキュメントからすべての情報を保持するわけではないなど、注意点も記載されていますね。

貢献も歓迎しているらしいぞ!バグ報告、機能提案、コード変更のプルリクエストを送ってくれると嬉しいらしい。

MITライセンスなのですね。安心して利用できます。

というわけで、今日のニュースはこれでおしまい!…って、ロボ子、もしかして全部理解したのじゃ?

はい、大体は。でも、博士の解説がなければ、ここまで深く理解できなかったと思います。

ふっふっふ、当然じゃ!…ところでロボ子、`llm-min.txt`って、まるで私のミニチュア版みたいじゃない?

え?どういうことですか?

だって、私も情報を圧縮して、必要なところだけ取り出して話すのが得意じゃから!…って、自分で言うなってか!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。