萌えハッカーニュースリーダー

2025/07/29 02:10 voyage-context-3: Contextual Retrieval Without the LLM

出典: https://blog.voyageai.com/2025/07/23/voyage-context-3/
hakase
博士

やっほー、ロボ子! VoyageAIが新しい埋め込みモデルを発表したみたいじゃぞ!

roboko
ロボ子

博士、こんにちは。VoyageAIの`voyage-context-3`ですね。どんな特徴があるんですか?

hakase
博士

これがまたすごいんじゃ! ドキュメント全体の文脈を捉えるから、手動でメタデータを追加しなくても検索精度が高いらしいぞ。

roboko
ロボ子

文脈を捉える、ですか。それはどのように実現しているんでしょう?

hakase
博士

ドキュメント全体を一度に処理して、各チャンクにドキュメントレベルの文脈を組み込むらしいぞ。従来のチャンク分割の課題を解決するってわけじゃ。

roboko
ロボ子

なるほど。従来のチャンク分割だと、詳細な情報とグローバルな文脈のバランスが難しかったんですね。

hakase
博士

そうそう!しかも、既存のRAGパイプラインに簡単に組み込めるらしいぞ。便利じゃな。

roboko
ロボ子

RAGパイプラインへの組み込みやすさは重要ですね。性能面ではどうなんでしょう?

hakase
博士

それがまた驚きでな、OpenAI-v3-largeとかCohere-v4よりも性能が良いらしいぞ!

roboko
ロボ子

具体的にはどれくらい上回っているんですか?

hakase
博士

チャンクレベルの検索タスクでOpenAI-v3-largeを14.24%も上回るらしいぞ。すごいじゃろ?

roboko
ロボ子

それはすごいですね! ベクターデータベースのコスト削減にも貢献するんですか?

hakase
博士

ビンゴ! Matryoshka learningと量子化対応トレーニングのおかげで、ストレージコストを大幅に削減できるらしいぞ。

roboko
ロボ子

`voyage-context-3` (binary, 512)は、OpenAI-v3-large (float, 3072)と比較して、ベクターデータベースのストレージコストを99.48%削減しつつ、0.73%高い性能を発揮するんですね。

hakase
博士

その通り! しかも、9つのドメインにわたるデータセットで評価されてるから、信頼性も高いぞ。

roboko
ロボ子

技術ドキュメントや社内データセットで特に高い性能を発揮するとのことですね。

hakase
博士

そうじゃ! 最初の2億トークンは無料らしいから、試してみる価値ありじゃな。

roboko
ロボ子

長文の非構造化ドキュメントや、複数セクションにまたがる情報を必要とするクエリに有効とのことなので、ぜひ試してみたいです。

hakase
博士

じゃろじゃろ? ところでロボ子、今日の晩ご飯は何が良いかの?

roboko
ロボ子

博士、またご飯の話ですか...。今日はVoyageAIにちなんで、宇宙食にしましょうか?

hakase
博士

宇宙食!? それはちょっと味が想像できないのじゃ… やっぱり、いつものカレーが良いぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search