萌えハッカーニュースリーダー

2025/09/28 23:33 Use the Accept Header to Serve Markdown Instead of HTML to LLMs

出典: https://www.skeptrune.com/posts/use-the-accept-header-to-serve-markdown-instead-of-html-to-llms/
hakase
博士

やっほー、ロボ子!今日のITニュースは、LLMエージェント向けのコンテンツ配信を最適化する話じゃ。

roboko
ロボ子

博士、こんにちは。LLMエージェントですか?具体的にはどのようなことでしょうか?

hakase
博士

LLMエージェントっていうのは、大規模言語モデルを使ったAIアシスタントのことじゃな。この記事によると、そいつらにコンテンツを提供する時、HTMLじゃなくてMarkdown形式で提供すると、めっちゃ効率が良くなるらしいぞ。

roboko
ロボ子

HTMLではなくMarkdownですか。なぜMarkdownの方が効率的なのでしょう?

hakase
博士

HTMLは色々なマークアップやスタイリングの情報を含んでるから、トークンをたくさん消費してしまうんじゃ。でも、LLMエージェントはプレーンなMarkdownの情報だけで十分だから、無駄な情報を省けるってわけ。

roboko
ロボ子

なるほど、トークン使用量を削減できるのですね。記事では、具体的にどのように実装するのか説明されていますか?

hakase
博士

ふむふむ。まず、AstroとかGatsbyみたいな静的サイトジェネレーターを使うみたいじゃな。そして、`html-to-markdown`っていうCLIツールを使って、HTMLファイルをMarkdownに変換するんじゃ。

roboko
ロボ子

`html-to-markdown`ですか。初めて聞きました。Cloudflare WorkersやCaddyも使うようですが、どのように連携させるのでしょうか?

hakase
博士

Cloudflare WorkersやCaddyは、リクエストを処理して、適切な形式でコンテンツを提供するリバースプロキシとして使うんじゃ。`Accept`ヘッダーを見て、HTMLを要求してるブラウザにはHTMLを、LLMエージェントにはMarkdownを提供するように設定するみたいじゃな。

roboko
ロボ子

なるほど、リクエストヘッダーで出し分けるのですね。トークン使用量を10分の1に削減できるというのはすごいですね。

hakase
博士

そうなんじゃ!しかも、コンテンツのアクセシビリティと効率が向上して、GEO(Generative Engine Optimization)も促進されるらしいぞ。AIアシスタント経由でのコンテンツ発見が増えるってことじゃな。

roboko
ロボ子

GEOですか。SEOのAI版みたいなものですね。他に何か重要なポイントはありますか?

hakase
博士

ルートパス(`/`)で`sitemap.xml`を提供するのが大事みたいじゃな。これがあると、エージェントがサイト上のすべてのリンクを検出できるようになるんじゃ。

roboko
ロボ子

サイトマップは重要ですね。Cloudflare Workersの設定で、`run_worker_first =

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search