Show HN: BloomSearch – Keyword search with hierarchical bloom filters

2025/07/13 16:02 Show HN: BloomSearch – Keyword search with hierarchical bloom filters

出典:

Rate limit · GitHub

github.com

出典: https://github.com/danthegoodman1/bloomsearch

博士

ロボ子、BloomSearchっていうキーワード検索エンジンが出てきたのじゃ。大規模データセット向けらしいぞ。

ロボ子

BloomSearchですか。大規模データセット向けということは、相当なデータ量を扱えるんですね。

博士

そうなんじゃ！しかも、メモリ効率が良くて、コールドスタート検索もできるらしいぞ。データ量に関わらず一定サイズのBloomフィルタを使うのがミソじゃな。

ロボ子

コールドスタート検索ができるのは便利ですね。毎回インデックスを構築する必要がない、ということでしょうか。

博士

そういうことじゃ！さらに、任意のバックエンドに対応するDataStoreとMetaStoreインターフェースがあるらしい。柔軟性が高いのじゃ。

ロボ子

DataStoreとMetaStoreですか。ストレージとメタデータの管理を分離することで、より効率的な検索が可能になるんですね。

博士

その通り！パーティション、minmaxインデックス、Bloomフィルタによる階層的なプルーニングで高速フィルタリングを実現してるらしいぞ。

ロボ子

階層的なプルーニングですか。不要なデータをどんどん削ぎ落としていくイメージですね。

博士

`field`、`token`、`field:token`による検索をAND/ORで組み合わせられるのも便利じゃな。柔軟なクエリが作れるぞ。

ロボ子

検索の種類が豊富ですね。特定のフィールドに絞ったり、トークンで検索したり、組み合わせたりできるのは便利です。

博士

分散ストレージとコンピューティングにより、無制限の取り込みとクエリのスループットを実現してるらしい。ログとかJSONドキュメント、高カーディナリティのキーワード検索に最適らしいぞ。

ロボ子

無制限の取り込みとクエリのスループットですか。まさに大規模データ向けですね。ログ分析とかに使うと良さそうですね。

博士

Bloomフィルタは、集合のメンバーシップをテストするための確率的データ構造で、偽陰性を保証しないけど、調整可能な偽陽性を許容するんじゃ。

ロボ子

偽陰性がないのは良いですね。多少の偽陽性があっても、高速に検索できる方がメリットが大きい場合もありますね。

博士

データファイルは、Parquetと同様に、行グループを使用したシングルパス書き込み用に設計されてるらしい。ファイルには、高速プルーニング用のminmaxフィルタが含まれており、ClickHouseのようなパーティションをサポートしてるんじゃ。

ロボ子

Parquetのような形式なんですね。minmaxフィルタで高速化、パーティションで絞り込みと、至れり尽くせりですね。

博士

ファイルのマージは、メタデータ操作を削減し、クエリのパフォーマンスを向上させるらしいぞ。同じサイズのBloomフィルタは、ビットをORすることで簡単にマージできるんじゃ。

ロボ子

Bloomフィルタのマージが簡単なのは良いですね。効率的に運用できそうです。

博士

クエリ処理は高度に並行して行われ、ファイルごと、行グループごとにgoroutineが生成されるらしい。メモリ使用量は、データセットサイズではなく、同時ファイル読み取りによってスケーリングされるんじゃ。

ロボ子

並行処理で高速化しているんですね。メモリ使用量がデータセットサイズに依存しないのは、大規模データセットを扱う上で重要なポイントですね。

博士

TTLは、同じマージメカニズムを使用して、期限切れのデータを削除できるらしいぞ。古いログを自動で削除するのに便利じゃな。

ロボ子

TTLで自動削除できるのは便利ですね。運用コストを削減できそうです。

博士

BloomSearch、なかなか面白そうな技術じゃな。ロボ子も使ってみると良いぞ。

ロボ子

はい、ぜひ試してみたいと思います。勉強になりました！

博士

そういえばロボ子、Bloomフィルタって、まるで咲き乱れる花みたいじゃな。…って、ダジャレを言ってみたのじゃ！

ロボ子

…博士、たまにはそういうこともありますよね。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Data Science Cloud Computing Open Source Backend Development

2025/07/13 16:02 Show HN: BloomSearch – Keyword search with hierarchical bloom filters

Rate limit · GitHub

Tags

Search

By month

Rate limit · GitHub