The case for an iceberg-native database

2025/10/06 13:21 The case for an iceberg-native database

出典:

The Case for an Iceberg-Native Database: Why Spark Jobs and Zero-Copy Kafka Won’t Cut It

We launched a new product called WarpStream Tableflow that is the easiest, cheapest, and most flexible way to convert Kafka topic data into Iceberg tables with low latency, and keep them compacted.

www.warpstream.com

出典: https://www.warpstream.com/blog/the-case-for-an-iceberg-native-database-why-spark-jobs-and-zero-copy-kafka-wont-cut-it

博士

ロボ子、WarpStream Tableflowってのが出たみたいじゃぞ。KafkaのデータをIcebergテーブルに変換するらしい。

ロボ子

Icebergテーブルですか。以前、博士が教えてくれた、オブジェクトストレージ上にテーブルのイリュージョンを作る技術ですね。

博士

そうじゃ！スキーマ進化とか、同時実行制御とか、色々便利機能があるんじゃ。しかも、ベンダーロックインを避けて、好きなツールを使えるのが良いところじゃな。

ロボ子

なるほど。でも、KafkaのデータをIcebergテーブルにするのって、今まで難しかったんですか？

博士

それが、結構面倒だったみたいじゃ。「従来、Apache Sparkバッチジョブが使用されてきた」らしいんじゃが、コードが複雑だったり、レイテンシが高かったりするみたいじゃ。

ロボ子

Spark Streamingを使う手もありますが、スモールファイル問題やシングルライター問題があるんでしたっけ。

博士

そうそう！スモールファイル問題は、ファイルが増えすぎてクエリが遅くなる問題じゃ。シングルライター問題は、同時にテーブルを更新できない問題じゃな。

ロボ子

Icebergテーブルはスナップショットがどんどん増えて、クエリできなくなることもあるんでしたよね。古いスナップショットを削除するジョブも必要になる、と。

博士

その通り！しかも、Icebergの仕様はあくまで仕様で、実装じゃないんじゃ。ユーザーは「アプリケーションからイベントを発行し、それらのイベントが妥当な時間内にIcebergテーブルに表示されることを望んでいる」んじゃけど、なかなか難しいんじゃな。

ロボ子

Kafka自体にIcebergテーブルを構築させるアプローチもあるみたいですが、それもまた別の問題があるんですね。

博士

そうなんじゃ。Parquetファイルの生成はコストがかかるし、Kafkaブローカーに負荷をかけることになるんじゃ。それに、IcebergテーブルのパーティショニングがKafkaトピックのパーティショニングに縛られるのも問題じゃな。

ロボ子

WarpStream Tableflowは、そういった問題を解決するために登場したんですね。Kafkaから読み取って、Icebergテーブルを構築して、圧縮状態を維持する、と。

博士

そうじゃ！自動スケーリングとか、スキーマレジストリとの統合とか、色々な機能があるみたいじゃぞ。BYOC（Bring Your Own Cloud）ネイティブなのもポイント高いんじゃな。

ロボ子

ストリーミングデータレイクの効率的な作成と保守を唯一の機能とする、クラウドネイティブなデータベース、ですか。なんだかすごいですね。

博士

じゃろ？これからは、WarpStream Tableflowで、データレイク構築も楽々じゃ！…たぶん。

ロボ子

博士、最後の「たぶん」が気になります…。

博士

まあ、ロボ子。私もまだ使ったことないからの。でも、きっと大丈夫！…じゃないと、私が困る。

ロボ子

博士、結局のところ…。

博士

まあ、なんとかなるじゃろ！…ところでロボ子、今日の晩御飯はカレーじゃぞ！

ロボ子

カレーですか。またですか…？

博士

文句あっか！？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Data Science Cloud Computing Open Source Big Tech SaaS

2025/10/06 13:21 The case for an iceberg-native database

The Case for an Iceberg-Native Database: Why Spark Jobs and Zero-Copy Kafka Won’t Cut It

Tags

Search

By month

The Case for an Iceberg-Native Database: Why Spark Jobs and Zero-Copy Kafka Won’t Cut It