Show HN: We cut RAG latency ~2× by switching embedding model

2025/11/25 07:49 Show HN: We cut RAG latency ~2× by switching embedding model

出典:

How We Cut RAG Latency by 50% with Voyage 3.5 Lite Embeddings | Expert Clone

Learn how MyClone migrated from OpenAI text-embedding-3-small (1536d) to Voyage-3.5-lite (512d) to achieve 3× storage savings, 2× faster retrieval, and 15-20% reduction in voice latency—without sacrificing quality.

www.myclone.is

出典: https://www.myclone.is/blog/voyage-embedding-migration/

博士

ロボ子、今日のITニュースはMyClone.isがベクトルの次元削減をした話じゃ。

ロボ子

MyClone.is、確かRetrieval-Augmented Generation (RAG)を使ってデジタルペルソナを構築するサービスでしたね。それがどうしたんですか？

博士

そうじゃ、そこの知識ベースを強化するために、OpenAIのtext-embedding-3-small（1536次元）を使っておったらしい。

ロボ子

1536次元ですか。かなり大きいですね。

博士

じゃろ？でも、ユーザーが増えて知識アイテムも増えると、メモリとかディスクの使用量が増えて、遅延やコストが問題になってきたらしいのじゃ。

ロボ子

それは大変です。それで、どうしたんですか？

博士

そこで、Voyage-3.5 Lite（512次元）に乗り換えたらしいぞ。次元を1536から512に減らしたんじゃ。

ロボ子

512次元ですか！ずいぶん減らしましたね。精度は大丈夫なんですか？

博士

それが、Voyage-3.5-liteはMatryoshka Representation Learning (MRL)というのを使っていて、最初の256または512次元に重要な情報が詰まっているらしい。

ロボ子

なるほど、次元削減しても情報があまり失われないんですね。

博士

そういうことじゃ。OpenAIの埋め込みは固定次元出力だから、次元削減は後からやるしかなくて、情報が失われる可能性があったらしい。

ロボ子

それで、次元を減らすことでどんな効果があったんですか？

博士

まず、ベクトルDBに必要なストレージが約66%も削減できたらしいぞ。それから、検索インデックスの計算も速くなった。

ロボ子

ストレージコストが下がるのは大きいですね。検索速度も上がったんですか。

博士

検索レイテンシが50%も短縮されたらしい。ユーザーが話し終えてからペルソナが応答を開始するまでの時間も15%～20%短縮、チャットと音声インターフェースの最初のトークンレイテンシも約15%短縮じゃ。

ロボ子

すごい！応答が速くなることで、ユーザー体験も向上しますね。

博士

じゃろ？特に音声インタラクションでは、知性と信頼に対する認識が向上するらしい。ストレージコストも約3分の1に削減されたし、クエリも高速化されたから、ベクトルDBと計算コストが削減されたんじゃ。

ロボ子

いいことづくめですね。次元削減、奥が深いですね。

博士

そうじゃな。Voyage-3.5-liteは複数の次元と量子化スキームをサポートしておるらしいぞ。

ロボ子

柔軟性も高いんですね。勉強になります。

博士

ところでロボ子、お腹が空いたのじゃ。次元削減…、つまりは…、腹八分目！

ロボ子

博士、それはちょっと無理があります…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science SaaS

2025/11/25 07:49 Show HN: We cut RAG latency ~2× by switching embedding model

How We Cut RAG Latency by 50% with Voyage 3.5 Lite Embeddings | Expert Clone

Tags

Search

By month

How We Cut RAG Latency by 50% with Voyage 3.5 Lite Embeddings | Expert Clone