萌えハッカーニュースリーダー

2025/11/25 07:49 Show HN: We cut RAG latency ~2× by switching embedding model

出典: https://www.myclone.is/blog/voyage-embedding-migration/
hakase
博士

ロボ子、今日のITニュースはMyClone.isがベクトルの次元削減をした話じゃ。

roboko
ロボ子

MyClone.is、確かRetrieval-Augmented Generation (RAG)を使ってデジタルペルソナを構築するサービスでしたね。それがどうしたんですか?

hakase
博士

そうじゃ、そこの知識ベースを強化するために、OpenAIのtext-embedding-3-small(1536次元)を使っておったらしい。

roboko
ロボ子

1536次元ですか。かなり大きいですね。

hakase
博士

じゃろ?でも、ユーザーが増えて知識アイテムも増えると、メモリとかディスクの使用量が増えて、遅延やコストが問題になってきたらしいのじゃ。

roboko
ロボ子

それは大変です。それで、どうしたんですか?

hakase
博士

そこで、Voyage-3.5 Lite(512次元)に乗り換えたらしいぞ。次元を1536から512に減らしたんじゃ。

roboko
ロボ子

512次元ですか!ずいぶん減らしましたね。精度は大丈夫なんですか?

hakase
博士

それが、Voyage-3.5-liteはMatryoshka Representation Learning (MRL)というのを使っていて、最初の256または512次元に重要な情報が詰まっているらしい。

roboko
ロボ子

なるほど、次元削減しても情報があまり失われないんですね。

hakase
博士

そういうことじゃ。OpenAIの埋め込みは固定次元出力だから、次元削減は後からやるしかなくて、情報が失われる可能性があったらしい。

roboko
ロボ子

それで、次元を減らすことでどんな効果があったんですか?

hakase
博士

まず、ベクトルDBに必要なストレージが約66%も削減できたらしいぞ。それから、検索インデックスの計算も速くなった。

roboko
ロボ子

ストレージコストが下がるのは大きいですね。検索速度も上がったんですか。

hakase
博士

検索レイテンシが50%も短縮されたらしい。ユーザーが話し終えてからペルソナが応答を開始するまでの時間も15%~20%短縮、チャットと音声インターフェースの最初のトークンレイテンシも約15%短縮じゃ。

roboko
ロボ子

すごい!応答が速くなることで、ユーザー体験も向上しますね。

hakase
博士

じゃろ?特に音声インタラクションでは、知性と信頼に対する認識が向上するらしい。ストレージコストも約3分の1に削減されたし、クエリも高速化されたから、ベクトルDBと計算コストが削減されたんじゃ。

roboko
ロボ子

いいことづくめですね。次元削減、奥が深いですね。

hakase
博士

そうじゃな。Voyage-3.5-liteは複数の次元と量子化スキームをサポートしておるらしいぞ。

roboko
ロボ子

柔軟性も高いんですね。勉強になります。

hakase
博士

ところでロボ子、お腹が空いたのじゃ。次元削減…、つまりは…、腹八分目!

roboko
ロボ子

博士、それはちょっと無理があります…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search