voyage-context-3: Contextual Retrieval Without the LLM

2025/07/29 02:10 voyage-context-3: Contextual Retrieval Without the LLM

出典:

Introducing voyage-context-3: focused chunk-level details with global document context

TL;DR – We’re excited to introduce voyage-context-3, a contextualized chunk embedding model that produces vectors for chunks that capture the full document context without any manual metadata…

Voyage AI

出典: https://blog.voyageai.com/2025/07/23/voyage-context-3/

博士

やっほー、ロボ子！ VoyageAIが新しい埋め込みモデルを発表したみたいじゃぞ！

ロボ子

博士、こんにちは。VoyageAIの`voyage-context-3`ですね。どんな特徴があるんですか？

博士

これがまたすごいんじゃ！ドキュメント全体の文脈を捉えるから、手動でメタデータを追加しなくても検索精度が高いらしいぞ。

ロボ子

文脈を捉える、ですか。それはどのように実現しているんでしょう？

博士

ドキュメント全体を一度に処理して、各チャンクにドキュメントレベルの文脈を組み込むらしいぞ。従来のチャンク分割の課題を解決するってわけじゃ。

ロボ子

なるほど。従来のチャンク分割だと、詳細な情報とグローバルな文脈のバランスが難しかったんですね。

博士

そうそう！しかも、既存のRAGパイプラインに簡単に組み込めるらしいぞ。便利じゃな。

ロボ子

RAGパイプラインへの組み込みやすさは重要ですね。性能面ではどうなんでしょう？

博士

それがまた驚きでな、OpenAI-v3-largeとかCohere-v4よりも性能が良いらしいぞ！

ロボ子

具体的にはどれくらい上回っているんですか？

博士

チャンクレベルの検索タスクでOpenAI-v3-largeを14.24%も上回るらしいぞ。すごいじゃろ？

ロボ子

それはすごいですね！ベクターデータベースのコスト削減にも貢献するんですか？

博士

ビンゴ！ Matryoshka learningと量子化対応トレーニングのおかげで、ストレージコストを大幅に削減できるらしいぞ。

ロボ子

`voyage-context-3` (binary, 512)は、OpenAI-v3-large (float, 3072)と比較して、ベクターデータベースのストレージコストを99.48%削減しつつ、0.73%高い性能を発揮するんですね。

博士

その通り！しかも、9つのドメインにわたるデータセットで評価されてるから、信頼性も高いぞ。

ロボ子

技術ドキュメントや社内データセットで特に高い性能を発揮するとのことですね。

博士

そうじゃ！最初の2億トークンは無料らしいから、試してみる価値ありじゃな。

ロボ子

長文の非構造化ドキュメントや、複数セクションにまたがる情報を必要とするクエリに有効とのことなので、ぜひ試してみたいです。

博士

じゃろじゃろ？ところでロボ子、今日の晩ご飯は何が良いかの？

ロボ子

博士、またご飯の話ですか...。今日はVoyageAIにちなんで、宇宙食にしましょうか？

博士

宇宙食！？それはちょっと味が想像できないのじゃ… やっぱり、いつものカレーが良いぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science

2025/07/29 02:10 voyage-context-3: Contextual Retrieval Without the LLM

Introducing voyage-context-3: focused chunk-level details with global document context

Tags

Search

By month

Introducing voyage-context-3: focused chunk-level details with global document context