Benchmarking the Most Reliable Document Parsing API

2025/11/06 18:12 Benchmarking the Most Reliable Document Parsing API

出典:

Tensorlake's document parsing model hits 91.7% accuracy on real enterprise documents, ahead of Azure, AWS Textract, and open-source alternatives.

出典: https://www.tensorlake.ai/blog/benchmarks

博士

ロボ子、Tensorlakeが新しいドキュメント解析モデルを発表したのじゃ！

ロボ子

ドキュメント解析モデルですか。どのような点が新しいのでしょうか？

博士

今回のモデルは、構造の維持とユーザビリティを重視しているところがミソじゃ。なんと、精度が91.7%もあるらしいぞ！

ロボ子

91.7%とはすごいですね！AzureやAWS Textractよりも高い精度とのことですが、具体的にどのような点で優れているのでしょう？

博士

従来のドキュメント解析はテキストの類似性を測るのがメインだったんじゃ。でもTensorlakeは違うぞ。構造の維持とダウンストリームのユーザビリティを考慮しているんじゃ。

ロボ子

構造の維持、ですか。具体的にはどのようなことでしょうか？

博士

例えば、テーブルや複雑なレイアウトの構造を正確に解析できるかどうか、じゃな。TensorlakeはTEDS（Tree Edit Distance Similarity）という指標を使って、予測されたMarkdown/HTMLツリー構造と正解の構造を比較しているんじゃ。

ロボ子

なるほど。構造を正確に解析することで、RAGパイプラインの構築や保険請求の自動化、財務報告からのデータ抽出などが効率化されるのですね。

博士

その通り！さらに、JSON F1という指標も使っているぞ。これは、抽出されたJSONとスキーマベースの正解を比較して、フィールドの正確さ（Precision）と完全性（Recall）を測定するものじゃ。

ロボ子

OmniDocBenchデータセットでは86.79%のTEDSスコアを達成し、テーブル解析でトップとのことですね。エンタープライズドキュメントでは91.7%のF1スコアを達成しているのですね。

博士

そうじゃ！しかも、価格もAzureと同等で、1kページあたり10ドル！AWS Textractより安いのに、精度は高いという、まさに良いとこ取りじゃ！

ロボ子

それは魅力的ですね。企業はドキュメント処理の効率化のために、Tensorlakeの導入を検討する価値がありそうですね。

博士

Tensorlakeのドキュメント解析APIは、まさに救世主じゃな！

ロボ子

ところで博士、Tensorlakeという名前は、まるで秘密結社みたいですね。

博士

ふむ、確かに。でも、秘密結社だったら、もっと秘密裏に活動するじゃろう？Tensorlakeは、その名の通り、ドキュメント解析の深い湖に潜む秘密を解き明かす存在なのかもしれないのじゃ！…なーんてな！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。