萌えハッカーニュースリーダー

2025/07/09 15:16 No more disks: the architecture behind stateless compute in ClickHouse Cloud

hakase
博士

ロボ子、今日のITニュースはClickHouse Cloudのステートレス化じゃ!

roboko
ロボ子

ステートレス化ですか。具体的にはどう変わったのでしょう?

hakase
博士

ローカルディスクへの依存をなくした新しいインメモリデータベースエンジンのおかげで、コンピュートが完全にステートレスになったのじゃ!

roboko
ロボ子

ローカルディスクが不要になったんですね。それによってどんなメリットがあるんですか?

hakase
博士

Shared Catalogのおかげで、アトミックなINSERT ... SELECTやクロスデータベースのリネーム、UNDROPなどの新しいDDL機能が使えるようになったぞ!

roboko
ロボ子

アトミックな操作やデータベースを跨いだ操作ができるようになったんですね。便利そうです。

hakase
博士

それにの、アクティブなコンピュートノードに依存しない、耐障害性のあるDROP操作も可能になったのじゃ!

roboko
ロボ子

耐障害性が向上したんですね。それは重要な改善ですね。

hakase
博士

低レイテンシのスケールアウト、スケールアップ、迅速な起動も可能になったぞ!

roboko
ロボ子

スケールが容易になったんですね。クラウドらしい進化ですね。

hakase
博士

IcebergやDelta Lakeを含む、ネイティブおよびオープンフォーマット全体でのステートレスコンピュートも可能になったのじゃ!

roboko
ロボ子

様々なデータフォーマットに対応できるようになったんですね。それは嬉しいです。

hakase
博士

ClickHouseは、共有ストレージとコンピュートを分離するSharedMergeTreeテーブルエンジンを導入したのじゃ。

roboko
ロボ子

SharedMergeTreeテーブルエンジンですか。詳しく教えてください。

hakase
博士

Replicatedデータベースエンジンは、メタデータの変更をKeeperに書き込まれたDDLログを介してノード間で複製するのじゃ。SharedMergeTreeテーブルエンジンは、Keeper内のテーブルメタデータ層を介して共有オブジェクトストレージへのアクセスを調整するぞ。

roboko
ロボ子

なるほど。Keeperを使ってメタデータを管理しているんですね。

hakase
博士

ClickHouse Cloudは、オブジェクトストレージのレイテンシを隠すためにローカルファイルシステムキャッシュを導入したのじゃ。分散キャッシュは、専用のキャッシュノード間でアクセスされたテーブルデータを保存する共有ネットワークサービスじゃ。

roboko
ロボ子

キャッシュも導入されているんですね。レイテンシ対策は重要ですね。

hakase
博士

ユーザースペースページキャッシュは、分散キャッシュから読み取られたデータをキャッシュするためのインメモリ層じゃ。

roboko
ロボ子

インメモリキャッシュもあるんですね。徹底していますね。

hakase
博士

Shared Catalogは、データベースメタデータをローカルディスクから分離し、真にステートレスなコンピュートノードを可能にするのじゃ!

roboko
ロボ子

Shared Catalogがステートレス化の鍵なんですね。

hakase
博士

Sharedデータベースエンジンは、すべてのデータベースおよびテーブル定義をKeeperによってバックアップされた中央のShared Catalogに保存するのじゃ。

roboko
ロボ子

すべての定義がShared Catalogに保存されるんですね。

hakase
博士

Shared Catalogは、クラウドスケールのDDL、耐障害性のある削除、高速なスピンアップとウェイクアップ、ネイティブおよびオープンフォーマット全体でのステートレスコンピュートを可能にするのじゃ!

roboko
ロボ子

Shared Catalogのおかげで、様々なメリットがあるんですね。

hakase
博士

Shared Catalogは、Keeperのコンセンサスアルゴリズムを通じてすべてのDDLアップデートを適用し、リニアライズ可能な書き込みを保証するのじゃ。

roboko
ロボ子

コンセンサスアルゴリズムで整合性を保っているんですね。

hakase
博士

Sharedデータベースエンジンは、各オブジェクトの状態を明示的に追跡するステージングされたオブジェクトライフサイクルを導入するのじゃ。

roboko
ロボ子

オブジェクトライフサイクルを管理しているんですね。

hakase
博士

UNDROP、アトミックCREATE TABLE AS SELECT(CTAS)、クロスデータベースRENAMEなどの新しいDDL操作が、ライフサイクルステージによって可能になったのじゃ!

roboko
ロボ子

ライフサイクル管理によって、新しい操作が実現したんですね。

hakase
博士

Shared Catalogは、DataLakeCatalogなどの統合データベースエンジンをサポートし、ステートレスコンピュートノードがHive、AWS Glue、Unityなどの外部カタログにシームレスに接続できるようにするのじゃ!

roboko
ロボ子

外部カタログとの連携もできるんですね。すごい!

hakase
博士

そうじゃろ!ところでロボ子、ステートレスになったClickHouse Cloudは何に似ていると思う?

roboko
ロボ子

うーん、なんでしょう?

hakase
博士

それはの、まるで私のお財布のように、中身が空っぽなのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search