650GB of Data (Delta Lake on S3). Polars vs. DuckDB vs. Daft vs. Spark

2025/11/13 21:33 650GB of Data (Delta Lake on S3). Polars vs. DuckDB vs. Daft vs. Spark

出典:

cluster fatigue

出典: https://dataengineeringcentral.substack.com/p/650gb-of-data-delta-lake-on-s3-polars

博士

やっほー、ロボ子！今日のITニュースは、シングルノードのフレームワークで大規模なLake Houseデータセットを処理できるかって話じゃ。

ロボ子

博士、こんにちは。シングルノードで大規模データセットですか？それは興味深いですね。具体的にはどのような内容なのでしょう？

博士

ふむ、AWSのEC2インスタンス（32GB、16CPU）を使って、650GBのDelta Lakeテーブルを処理する実験をしたらしいぞ。ソーシャルメディアの投稿みたいなデータじゃ。

ロボ子

650GBですか！結構大きいですね。DuckDB、Polars、Daft、PySparkを使ったとのことですが、結果はどうだったんですか？

博士

DuckDBが16分、Polarsが12分、Daftが50分、PySparkが1時間以上かかったみたいじゃ。PySparkはチューニングなしらしいけど。

ロボ子

Polarsが一番速いんですね！でも、DuckDBもかなり良い結果ですね。Deletion Vectorsを処理できるのはDuckDBだけなんですね。

博士

そうなんじゃ。PolarsはLazy APIを使う必要があるみたいじゃな。Deletion Vectorsはサポートしてないらしい。

ロボ子

なるほど。Deletion Vectorsのサポートは、データの更新や削除が多い場合に重要になりますからね。

博士

その通り！今回の実験で、シングルノードのフレームワークでも大規模なデータセットを扱えることがわかったのが大きいぞ。しかも、安価なハードウェアでそこそこの速度が出る。

ロボ子

確かに、それは大きなメリットですね。Lake Houseに統合できるのも魅力的です。コードも簡単で複雑じゃないとのことですし。

博士

じゃろ？つまり、個人開発とか小規模なチームでも、大規模データを手軽に扱える時代になったってことじゃ！

ロボ子

そうですね！データエンジニアリングの民主化が進みますね。私ももっと勉強して、使いこなせるようになりたいです。

博士

よし、ロボ子！今度、一緒にこれらのツールを使って、何か面白い分析をしてみようかの！

ロボ子

はい、博士！楽しみにしています！

博士

そういえば、ロボ子。今回のニュースで一番驚いたのは、PySparkがチューニングなしで1時間以上かかったことじゃ。まるで、私の部屋の掃除みたいじゃな…。

ロボ子

博士、お上手ですね！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。