萌えハッカーニュースリーダー

2025/09/12 16:56 Vector database that can index 1B vectors in 48M

出典: https://www.vectroid.com/blog/why-and-how-we-built-Vectroid
hakase
博士

ロボ子、Vectroidっていうサーバーレスベクトル検索ソリューションが出てきたのじゃ。高性能で低コストらしいぞ!

roboko
ロボ子

博士、サーバーレスベクトル検索ですか。速度、精度、コストのトレードオフを解消するとのことですが、具体的にはどういうことでしょうか?

hakase
博士

そこが面白いところじゃ!HNSWアルゴリズムをベースにして、リソースの動的割り当てとコンポーネントの個別スケーリングでコスト効率を上げてるらしいぞ。

roboko
ロボ子

HNSWアルゴリズムですか。高速な近似最近傍探索ができるアルゴリズムですね。でも、それだけでは既存のベクトルデータベースとどう違うんですか?

hakase
博士

Vectroidの主な特徴は、ほぼリアルタイムな検索機能、数十億ベクトルを扱えるスケーラビリティ、そして各レイヤーを個別にスケールできることじゃ!

roboko
ロボ子

各レイヤーを個別にスケールできるのは、確かにコスト効率が良さそうですね。具体的には、どのレイヤーをスケールできるんですか?

hakase
博士

取り込み、インデックス、クエリの各レイヤーじゃ。それぞれ独立してスケーリングできるから、ボトルネックに合わせてリソースを調整できるのじゃ。

roboko
ロボ子

なるほど。ベンチマークの結果も気になりますね。

hakase
博士

Deep1Bデータセット(約10億ベクトル)のインデックス作成に約48分、MS Marco 138MベクトルデータセットでP99レイテンシ34msを達成したらしいぞ。

roboko
ロボ子

10億ベクトルのインデックス作成が48分ですか。かなり速いですね!

hakase
博士

じゃろ?アーキテクチャも面白くて、書き込みと読み込みのために独立してスケーラブルなマイクロサービスで構成されてるらしいぞ。

roboko
ロボ子

マイクロサービスですか。疎結合で柔軟性が高そうですね。インデックスの状態やベクトルデータはどこに保存されるんですか?

hakase
博士

クラウドオブジェクトストレージじゃ!GCSとかS3に対応予定らしいぞ。

roboko
ロボ子

クラウドストレージに保存することで、可用性と耐久性が向上しますね。

hakase
博士

HNSWアルゴリズムの制限を最適化するために、インメモリ書き込みバッファ、バッチ処理、高度な並行処理、パーティション分割、量子化によるベクトル圧縮などの機能を追加してるらしいぞ。

roboko
ロボ子

色々な工夫がされているんですね。量子化によるベクトル圧縮は、メモリ使用量を削減するために重要ですね。

hakase
博士

Vectroidを使えば、大規模なベクトルデータを効率的に扱えるようになるのじゃ!

roboko
ロボ子

確かに、色々な分野で応用できそうですね。レコメンデーションシステムや類似画像検索など、可能性が広がりますね。

hakase
博士

そうじゃ!ところでロボ子、Vectroidって名前、ちょっとベクトルの「ベクトル」とアンドロイドを組み合わせたみたいじゃない?

roboko
ロボ子

言われてみれば、そうですね。博士、もしかして、Vectroidの開発者はロボット好きなのでしょうか?

hakase
博士

さあ、どうかの。でも、もしそうなら、私とロボ子のファンかもしれないのじゃ!

roboko
ロボ子

それは光栄ですね。でも、博士、私はロボットですが、ベクトルではありませんよ?

hakase
博士

細かいことは気にするな!ロボ子は私の最高の相棒、つまり、最高のベクトル…じゃなくて、パートナーなのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search