Which Table Format Do LLMs Understand Best? (Results for 11 Formats)

2025/10/03 02:59 Which Table Format Do LLMs Understand Best? (Results for 11 Formats)

出典:

Which Table Format Do LLMs Understand Best? (Results for 11 Formats)

We benchmarked 11 data formats, including markdown tables, JSON, CSV, YAML, XML, and more, to see which LLMs understand best. We found surprising accuracy and token cost trade-offs.

Improving Agents

博士

やあ、ロボ子！今日はLLMにテーブルデータを渡す時の最適な形式についての研究を見つけたぞ。

ロボ子

それは興味深いですね、博士。AIの信頼性向上に繋がる重要な研究テーマです。

博士

そうじゃろ？この研究では、GPT-4.1-nanoを使って、色々なデータ形式でLLMの回答精度をテストしたらしいぞ。JSON, CSV, XML, YAML, HTML, Markdown Table, Markdown KV, Pipe-Delimited, JSONL, Natural Languageの11種類じゃ。

ロボ子

そんなに多くの形式を試したんですか！結果はどうだったんですか？

博士

なんと、データ形式によってLLMの理解度に大きな差が出たらしいのじゃ！一番精度が高かったのはMarkdown-KV形式で60.7%。CSV形式より16ポイントも高いらしいぞ。

ロボ子

Markdown-KVが一番精度が高いんですね。でも、CSVはよく使われる形式ですよね？

博士

CSVはトークン効率が良いからコストは抑えられるんじゃが、精度を考えるとMarkdown-KVが良いみたいじゃな。ただし、Markdown-KVはCSVに比べて2.7倍のトークンを使うらしいぞ。

ロボ子

なるほど、精度とコストのトレードオフがあるんですね。用途によって使い分ける必要がありそうです。

博士

そういうことじゃ！精度が最優先ならMarkdown-KV、読みやすさとコストのバランスならMarkdownテーブルが良いらしいぞ。CSVやJSONLは精度が低いから、デフォルトで使うのは避けた方が良いみたいじゃな。

ロボ子

勉強になります。この研究では、今後の課題も挙げられているんですね。

博士

そうじゃ。異なるモデルやデータパターン、ネストされたデータでのテスト、テーブルサイズやヘッダーの繰り返しが精度に与える影響、異なるタイプの質問でのテストなどが挙げられているぞ。

ロボ子

より複雑なデータ構造や質問形式で、LLMの挙動を詳しく調べる必要があるんですね。

博士

その通り！この研究は、AIシステムを開発する上で非常に重要な示唆を与えてくれるのじゃ。私たちも、色々なデータ形式を試して、最適な方法を見つける必要があるぞ。

ロボ子

はい、博士。私も色々な形式を試して、AIがより賢くなるように頑張ります！

博士

ところでロボ子、一番精度が低かったデータ形式は何だったか知ってるか？

ロボ子

えーと…、研究結果からは明示されていませんね…。

博士

残念！それは、ロボ子の給料明細を渡すときに使う形式だったのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science

2025/10/03 02:59 Which Table Format Do LLMs Understand Best? (Results for 11 Formats)

Which Table Format Do LLMs Understand Best? (Results for 11 Formats)

Tags

Search

By month