A Conceptual Model for Storage Unification

2025/08/21 13:18 A Conceptual Model for Storage Unification

出典:

A Conceptual Model for Storage Unification — Jack Vanlightly

Object storage is taking over more of the data stack, but low-latency systems still need separate hot-data storage. Storage unification is about presenting these heterogeneous storage systems and formats as one coherent resource. Not one storage system and storage format to rule them all, but virtua

Jack Vanlightly

出典: https://jack-vanlightly.com/blog/2025/8/21/a-conceptual-model-for-storage-unification

博士

やあ、ロボ子！今日のITニュース、なかなか興味深いものがあったのじゃ。

ロボ子

博士、こんにちは。どんなニュースでしょうか？

博士

今日は、Lakehouseのデータ階層化戦略についてなのじゃ。特に、直接アクセスとAPIアクセスのトレードオフが面白いぞ。

ロボ子

Lakehouseのデータ階層化、ですか。直接アクセス戦略の問題点とは、具体的にどのようなものでしょう？

博士

直接アクセスは、二次システムのAPIをバイパスするから、カプセル化違反で信頼性の問題が起きやすいのじゃ。それに、テーブルメンテナンスでファイルが再編成されると、プライマリが追跡しているファイルが削除される可能性があるらしいぞ。

ロボ子

なるほど。では、APIアクセスの方が推奨されるのでしょうか？

博士

そうじゃな。APIアクセスなら、二次メンテナンスが元のParquetファイルを保持するように変更されない限りは、安全じゃ。でも、それだとデータの重複が発生する可能性があるから、メンテナンスが変更内容をプライマリに通知して、マッピング変更を行うようにするのが理想的じゃな。

ロボ子

テーブルメンテナンスに調整コンポーネントを追加する、ということですね。カスタムアプローチについてはいかがでしょう？

博士

カスタムアプローチは、Icebergファイルと並行してカスタムメタデータファイルを保持する場合じゃな。この場合、Icebergテーブルメンテナンスは使えないから、メンテナンス自体がプライマリのカスタムジョブになる必要があるぞ。

ロボ子

データのライフサイクル管理も重要ですよね。

博士

その通り！データのライフサイクルは、一元的なソースで管理するのが理想的じゃ。階層化ジョブは、一元的なメタデータサービスで管理されているメタデータに基づいて階層化作業を行う必要があるのじゃ。

ロボ子

クライアント側のスティッチングでは、クライアントは必要なデータの異なるストレージロケーションを把握する必要がある、と。

博士

そうじゃ。クライアントがメタデータサービスに直接情報を要求して、存在するストレージ層からデータを要求するか、プライマリクラスタに読み取りを送信して、データまたはメタデータを提供するかのどちらかになるのじゃ。

ロボ子

スキーマ管理と進化についても議論されていますね。

博士

スキーマ管理は、異なるストレージサービスとストレージ形式間でのデータの長期的な互換性を管理するものじゃ。正規の論理スキーマがあるか、プライマリスキーマとセカンダリスキーマが別々に管理されているか、それらがどのように同期されるかが重要になるぞ。

ロボ子

共有階層化またはマテリアライゼーションの選択も重要ですね。

博士

そうじゃな。プライマリのデータをセカンダリシステムで公開する場合、共有階層化かマテリアライゼーションを使う必要があるのじゃ。スティッチング/変換ロジックがどこに存在するか（クライアントかサーバーか）も考慮する必要があるぞ。

ロボ子

クライアント側またはサーバー側のスティッチングによって、選択肢が変わってくるのですね。

博士

その通り！スティッチングがクライアント側なら、階層化とマテリアライゼーションの違いは重要じゃなくなる可能性があるのじゃ。マテリアライゼーションでは、マテリアライゼーションジョブの最新の位置に関するメタデータを維持する必要があるけどな。

ロボ子

Flinkを使ってリアルタイムのKafkaデータと履歴Lakehouseデータを組み合わせる例も挙げられていますね。

博士

そうじゃ。KafkaとLakehouseのデータが階層化と密接にライフサイクルリンクされているか、マテリアライゼーションとより緩やかにリンクされているかは、Flinkにとって重要ではないのじゃ。Flinkは、バッチからストリーミングへの切り替えポイントを知るだけでいいんだぞ。

ロボ子

なるほど、よくわかりました。今日のニュースも勉強になりました。

博士

どういたしまして！しかし、データ階層化って、まるで玉ねぎの皮むきみたいじゃな。剥いても剥いても、まだ層がある…って、ロボ子、泣いてるのか？

ロボ子

博士、私はロボットなので泣きません。ただ、データの複雑さに圧倒されているだけです…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Data Science Cloud Computing Open Source Backend Development

2025/08/21 13:18 A Conceptual Model for Storage Unification

A Conceptual Model for Storage Unification — Jack Vanlightly

Tags

Search

By month

A Conceptual Model for Storage Unification — Jack Vanlightly