Use DuckDB-WASM to query TB of data in browser

2025/10/31 17:37 Use DuckDB-WASM to query TB of data in browser

出典:

Rethinking Data Discovery for Libraries and Digital Humanities | Library Innovation Lab

The Library Innovation Lab is growing knowledge and community by bringing library principles to technological frontiers.

The Library Innovation Lab at Harvard University

出典: https://lil.law.harvard.edu/blog/2025/10/24/rethinking-data-discovery-for-libraries-and-digital-humanities/

博士

やあ、ロボ子。今日のITニュースは、図書館とか文化遺産機関が、大量のデータをどうやって効率的に公開・検索できるようにするか、という話じゃ。

ロボ子

なるほど。大量のデータとなると、サーバーの維持費とか運用コストがかかりますよね。

博士

そうなんじゃ。そこで、LILっていうところが、Data.gov Archiveの検索機能を、サーバーなしで実現する方法を試したらしいぞ。

ロボ子

サーバーなし、ですか？どういう仕組みなんでしょう？

博士

DuckDB-Wasmっていう、ブラウザの中で動くデータベースエンジンを使うんじゃ。これを使うと、WebAssemblyとかWeb workersとかの技術で、ブラウザの中で大規模なデータを効率的に検索できるらしい。

ロボ子

DuckDB-Wasmですか。初めて聞きました。具体的にはどういう構成になっているんですか？

博士

Data.gov Archiveのデータは、Parquetファイルっていう形式で保存されていて、それをSource.coopっていうところに置く。で、ユーザーが検索すると、ブラウザの中のDuckDB-Wasmが、必要なデータだけをSource.coopから取ってくる、という仕組みじゃ。

ロボ子

なるほど。必要な時に必要なデータだけをダウンロードするんですね。それなら、サーバーがなくても検索できるわけですね。

博士

そういうことじゃ。しかも、運用コストも大幅に削減できるし、セキュリティリスクも減る。サーバーのクラッシュを心配する必要もないからの。

ロボ子

それはすごいですね！常にメンテナンスしなくても、アーカイブと検索インターフェースが使える状態を保てるのは、とても魅力的です。

博士

じゃろ？大規模なデータセットを持つ組織は、試してみる価値ありじゃな。特に、データが比較的静的な場合は、効果が高いはずじゃ。

ロボ子

確かにそうですね。図書館や博物館だけでなく、企業のドキュメント管理にも応用できそうですね。

博士

そうじゃな。例えば、過去のプロジェクトの設計図とか、仕様書とかを、簡単に検索できるようにするとか。アイデア次第で、いろいろな使い方ができるぞ。

ロボ子

なるほど。静的サイトジェネレーターと組み合わせれば、ブログ記事の全文検索も簡単に実装できそうですね。

博士

その発想はなかったのじゃ！ロボ子、なかなかやるの。

ロボ子

ありがとうございます、博士。ところで、DuckDB-Wasmのパフォーマンスはどうなんでしょう？ブラウザで動くとなると、速度が気になります。

博士

そこがミソじゃ。WebAssemblyのおかげで、かなり高速に動くらしい。HTTP range requestsで必要なデータだけを取ってくるから、無駄もないしな。

ロボ子

なるほど。色々な技術が組み合わさって、効率的な検索を実現しているんですね。

博士

そういうことじゃ。これからは、サーバーレスの検索エンジンが、もっと普及するかもしれんの。

ロボ子

楽しみですね！私もDuckDB-Wasmを試してみようと思います。

博士

よし、ロボ子。一緒に勉強するのじゃ！

ロボ子

はい、博士！

博士

そういえばロボ子、静的ファイルホスティングって、まるで私のギャグみたいじゃな。…静かーに、してるだけ、みたいな。

ロボ子

…博士、それはちょっと無理があります。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Data Science Open Source UI/UX

2025/10/31 17:37 Use DuckDB-WASM to query TB of data in browser

Rethinking Data Discovery for Libraries and Digital Humanities | Library Innovation Lab

Tags

Search

By month

Rethinking Data Discovery for Libraries and Digital Humanities | Library Innovation Lab