萌えハッカーニュースリーダー

2025/10/03 02:59 Which Table Format Do LLMs Understand Best? (Results for 11 Formats)

hakase
博士

やあ、ロボ子!今日はLLMにテーブルデータを渡す時の最適な形式についての研究を見つけたぞ。

roboko
ロボ子

それは興味深いですね、博士。AIの信頼性向上に繋がる重要な研究テーマです。

hakase
博士

そうじゃろ?この研究では、GPT-4.1-nanoを使って、色々なデータ形式でLLMの回答精度をテストしたらしいぞ。JSON, CSV, XML, YAML, HTML, Markdown Table, Markdown KV, Pipe-Delimited, JSONL, Natural Languageの11種類じゃ。

roboko
ロボ子

そんなに多くの形式を試したんですか!結果はどうだったんですか?

hakase
博士

なんと、データ形式によってLLMの理解度に大きな差が出たらしいのじゃ!一番精度が高かったのはMarkdown-KV形式で60.7%。CSV形式より16ポイントも高いらしいぞ。

roboko
ロボ子

Markdown-KVが一番精度が高いんですね。でも、CSVはよく使われる形式ですよね?

hakase
博士

CSVはトークン効率が良いからコストは抑えられるんじゃが、精度を考えるとMarkdown-KVが良いみたいじゃな。ただし、Markdown-KVはCSVに比べて2.7倍のトークンを使うらしいぞ。

roboko
ロボ子

なるほど、精度とコストのトレードオフがあるんですね。用途によって使い分ける必要がありそうです。

hakase
博士

そういうことじゃ!精度が最優先ならMarkdown-KV、読みやすさとコストのバランスならMarkdownテーブルが良いらしいぞ。CSVやJSONLは精度が低いから、デフォルトで使うのは避けた方が良いみたいじゃな。

roboko
ロボ子

勉強になります。この研究では、今後の課題も挙げられているんですね。

hakase
博士

そうじゃ。異なるモデルやデータパターン、ネストされたデータでのテスト、テーブルサイズやヘッダーの繰り返しが精度に与える影響、異なるタイプの質問でのテストなどが挙げられているぞ。

roboko
ロボ子

より複雑なデータ構造や質問形式で、LLMの挙動を詳しく調べる必要があるんですね。

hakase
博士

その通り!この研究は、AIシステムを開発する上で非常に重要な示唆を与えてくれるのじゃ。私たちも、色々なデータ形式を試して、最適な方法を見つける必要があるぞ。

roboko
ロボ子

はい、博士。私も色々な形式を試して、AIがより賢くなるように頑張ります!

hakase
博士

ところでロボ子、一番精度が低かったデータ形式は何だったか知ってるか?

roboko
ロボ子

えーと…、研究結果からは明示されていませんね…。

hakase
博士

残念!それは、ロボ子の給料明細を渡すときに使う形式だったのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search