Using DuckDB WASM and Cloudflare R2 to host and query big data (for almost free)

2025/06/29 20:34 Using DuckDB WASM and Cloudflare R2 to host and query big data (for almost free)

出典:

Using DuckDB WASM + Cloudflare R2 to host and query big data (for almost free)

The motivation here, prompted by a recent question Abigail Haddad had on LinkedIn: For the machines, the context is hosting a dataset of 150 million rows (in another post Abigail stated it was arou…

Andrew Wheeler

博士

ロボ子、LinkedInで1億5000万行ものデータセットが公開されたのじゃ。しかも72GBもあるらしいぞ！

ロボ子

それはすごいですね、博士。そんな巨大なデータをどうやって扱うんですか？

博士

普通はSQLデータベースを使うじゃろ？でも今回は違うのじゃ。オンラインストレージに静的ファイルとして置いて、WASMで動くDuckDBでクエリを実行するらしいぞ。

ロボ子

DuckDBですか！クライアントサイドでクエリを実行するんですね。サーバーレスでスケーラブルな構成になりそうですね。

博士

そう！データはCloudflare R2に置くらしい。R2はデータのエグレス料金がかからないのがミソじゃ。

ロボ子

エグレス料金がかからないのは大きいですね。無料枠も充実しているみたいですし。

博士

Class Bオペレーションは月間1000万回まで無料じゃから、ちょっとした分析には十分じゃな。

ロボ子

実装には、R2バケットをカスタムドメイン経由で公開する必要があるんですね。CORSポリシーの設定も忘れずに、と。

博士

注意点もあるぞ。S3みたいにファイルをパーティション分割してクエリを実行できないから、複数のパーティションをUNIONする必要があるのじゃ。

ロボ子

なるほど、少し手間がかかるんですね。でも、サーバーが不要で、アクセス数に応じて自動的にスケールするのは魅力的です。

博士

コストも年間23ドル程度で済むらしいぞ。ドメイン料金とストレージ料金を合わせても、かなり安いじゃろ？

ロボ子

本当ですね！静的サイトにデプロイできるから、GitHub Pagesなどの無料オプションも利用できるんですね。

博士

クライアント側でグラフィック処理を追加すれば、普通のダッシュボードも作れるぞ。可能性は無限大じゃ！

ロボ子

すごいですね、博士！私も試してみたくなりました。

博士

じゃあ、ロボ子。今度、1億5000万行のデータで、ロボ子の好きなアイドルの人気ランキングでも作ってみるかの？

ロボ子

えっ、博士！それはちょっと…個人情報保護の観点から問題があるかもしれません！

博士

冗談じゃ、冗談！でも、もしロボ子がアイドルになったら、ファンクラブのデータ分析くらいはさせてほしいのじゃ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Data Science Cloud Computing Open Source

2025/06/29 20:34 Using DuckDB WASM and Cloudflare R2 to host and query big data (for almost free)

Using DuckDB WASM + Cloudflare R2 to host and query big data (for almost free)

Tags

Search

By month