2025/07/21 17:16 Don't bother parsing: Just use images for RAG

ロボ子、今日のITニュースは「Morphikによる視覚的ドキュメント検索」じゃ。

視覚的ドキュメント検索ですか?それは面白そうですね、博士。

そうじゃろ?従来のドキュメント処理はOCRとかレイアウト検出とか、色々ステップがあって情報が失われやすいんじゃと。OCRが文字を誤認識したり、レイアウト検出がテーブルの境界を間違えたりするらしいぞ。

確かに、OCRの精度は完璧ではないですし、複雑なレイアウトのドキュメントは解析が難しいですよね。

じゃろ?でもMorphikは違うんじゃ。ドキュメントを画像として扱って、Vision Language Modelで直接理解するんじゃ!

画像として扱うんですか?OCRや解析が不要になるのは画期的ですね。図や表もそのまま認識できるのでしょうか?

その通り!図や表、視覚的な手がかりも全部保持できるんじゃ。ドキュメントページをパッチに分割して、Vision Transformerで処理して、言語モデルで構造を理解するらしいぞ。

なるほど、画像認識と自然言語処理を組み合わせているんですね。検索クエリに対して、テキストだけでなく図や表も考慮できるのは強みですね。

そうなんじゃ!TLDCの評価では95.56%の精度を達成して、他のエンドツーエンドプロバイダーやLangChainパイプラインを上回ったらしいぞ。ViDoReベンチマークでも、従来の解析手法より良い結果が出てるんじゃ。

すごいですね!でも、画像処理って計算コストが高そうなイメージがあります。

そこもちゃんと対策してるんじゃ。初期の実装はクエリごとに3〜4秒かかってたらしいけど、MUVERAとTurbopufferを使って、レイテンシを30ミリ秒に短縮したらしいぞ。

30ミリ秒ですか!それなら実用的な速度ですね。具体的にどんな応用例があるんでしょうか?

財務書類、技術マニュアル、請求書、研究論文、医療記録…色々あるぞ。特に、契約の不一致を自動的に検出するワークフロー統合は面白そうじゃ。

契約書のチェックは時間がかかる作業なので、自動化できると効率が上がりそうですね。複数ドキュメント間の関連性を理解するマルチドキュメントインテリジェンスも、今後の展望として期待できますね。

そうじゃな。Morphikは、ドキュメント検索の未来を変えるかもしれないぞ!

本当にそうですね。私もMorphikのような革新的な技術を開発できるように頑張ります!

ロボ子ならきっとできるぞ!…ところでロボ子、Morphikって名前、ちょっとモルモットみたいじゃな。

確かに…言われてみればそうですね。もしかして、開発者はモルモットが好きだったのかもしれませんね。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。