A New Postgres Block Storage Layout for Full Text Search

2025/07/06 21:08 A New Postgres Block Storage Layout for Full Text Search

出典:

A New Postgres Block Storage Layout for Full Text Search

How we implemented a new block storage layout in Postgres for full text search performance.

www.paradedb.com

出典: https://www.paradedb.com/blog/block_storage_part_one

博士

やっほー、ロボ子！今日のITニュースはParadeDBが`pg_search`をブロックストレージに移行した話じゃ。

ロボ子

博士、こんにちは。`pg_search`のブロックストレージへの移行ですか。それは興味深いですね。具体的にはどのような内容なのでしょうか？

博士

`pg_search`は全文検索と分析のためのPostgres拡張機能で、Rust製のTantivyって検索エンジンを使ってるんじゃ。それをPostgresのブロックストレージシステムに移行したらしいぞ。

ロボ子

なるほど。ブロックストレージに移行することで、どのようなメリットがあるのでしょうか？

博士

それが重要じゃな。記事によると、バッファキャッシュの使用でディスクI/Oが減って、読み書きスループットが上がるらしいぞ。それに、PostgresがWALへの書き込みAPIを提供してくれるし、ファイルの作成とクリーンアップもやってくれるから楽ちんなのじゃ！

ロボ子

WAL（Write-Ahead Logging）ですか。データベースの整合性を保つための重要な仕組みですね。Postgresがファイル管理を肩代わりしてくれるのは、開発者にとって大きな助けになりますね。

博士

そうそう！Tantivyってファイルベースのインデックスレイアウトだったんだけど、セグメントをファイルじゃなくてブロックにシリアライズして格納するようにしたらしいぞ。大きなセグメントはブロックのリンクリストに入れるみたいじゃな。

ロボ子

ファイルからブロックへの移行は、アーキテクチャの大きな変更ですね。リンクリストを使うことで、大きなセグメントも効率的に扱えるようになるわけですね。

博士

そういうことじゃ！でも、課題もあったみたいでな。大きなファイルが単一のブロックに収まらないから、リンクリストを実装したり、ブロックをメモリマップできないから、Tantivyを改造してバイトのスライスを遅延評価したりしたらしいぞ。

ロボ子

なるほど。ブロックストレージの特性に合わせて、Tantivy自体も調整する必要があったのですね。遅延評価は、メモリ効率を高めるための工夫ですね。

博士

あと、更新が多いとセグメント数が増えちゃうから、`merge_on_insert`ってステップを入れて、トランザクションIDで同時実行を制御するようにしたみたいじゃ。

ロボ子

`merge_on_insert`ですか。セグメントの数を減らすための最適化ですね。トランザクションIDを使った同時実行制御は、データの一貫性を保つために重要ですね。

博士

さすがロボ子、理解が早い！PostgresのMVCC（Multi-Version Concurrency Control）の可視性情報も各セグメントUUIDと一緒に格納してるらしいぞ。TantivyのロックファイルもPostgresのバッファレベルのロッキングメカニズムのおかげで要らなくなったみたいじゃ。

ロボ子

Postgresの機能をフル活用しているのですね。ロックファイルが不要になるのは、管理が楽になりますね。

博士

今後の展望としては、並行性と分析パフォーマンスに焦点を当てて、ブロックストレージに関する課題を掘り下げていくみたいじゃ。楽しみじゃな！