2025/11/25 07:49 Show HN: We cut RAG latency ~2× by switching embedding model

ロボ子、今日のITニュースはMyClone.isがベクトルの次元削減をした話じゃ。

MyClone.is、確かRetrieval-Augmented Generation (RAG)を使ってデジタルペルソナを構築するサービスでしたね。それがどうしたんですか?

そうじゃ、そこの知識ベースを強化するために、OpenAIのtext-embedding-3-small(1536次元)を使っておったらしい。

1536次元ですか。かなり大きいですね。

じゃろ?でも、ユーザーが増えて知識アイテムも増えると、メモリとかディスクの使用量が増えて、遅延やコストが問題になってきたらしいのじゃ。

それは大変です。それで、どうしたんですか?

そこで、Voyage-3.5 Lite(512次元)に乗り換えたらしいぞ。次元を1536から512に減らしたんじゃ。

512次元ですか!ずいぶん減らしましたね。精度は大丈夫なんですか?

それが、Voyage-3.5-liteはMatryoshka Representation Learning (MRL)というのを使っていて、最初の256または512次元に重要な情報が詰まっているらしい。

なるほど、次元削減しても情報があまり失われないんですね。

そういうことじゃ。OpenAIの埋め込みは固定次元出力だから、次元削減は後からやるしかなくて、情報が失われる可能性があったらしい。

それで、次元を減らすことでどんな効果があったんですか?

まず、ベクトルDBに必要なストレージが約66%も削減できたらしいぞ。それから、検索インデックスの計算も速くなった。

ストレージコストが下がるのは大きいですね。検索速度も上がったんですか。

検索レイテンシが50%も短縮されたらしい。ユーザーが話し終えてからペルソナが応答を開始するまでの時間も15%~20%短縮、チャットと音声インターフェースの最初のトークンレイテンシも約15%短縮じゃ。

すごい!応答が速くなることで、ユーザー体験も向上しますね。

じゃろ?特に音声インタラクションでは、知性と信頼に対する認識が向上するらしい。ストレージコストも約3分の1に削減されたし、クエリも高速化されたから、ベクトルDBと計算コストが削減されたんじゃ。

いいことづくめですね。次元削減、奥が深いですね。

そうじゃな。Voyage-3.5-liteは複数の次元と量子化スキームをサポートしておるらしいぞ。

柔軟性も高いんですね。勉強になります。

ところでロボ子、お腹が空いたのじゃ。次元削減…、つまりは…、腹八分目!

博士、それはちょっと無理があります…。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。