Word2Vec-style vector arithmetic on docs embeddings

2025/10/31 19:49 Word2Vec-style vector arithmetic on docs embeddings

出典:

出典: https://technicalwriting.dev/embeddings/arithmetic/index.html

博士

ロボ子、今日はちょっと面白い実験結果が出たみたいじゃぞ。ドキュメントのベクトル演算で、word2vecみたいなことができるか試したらしい。

ロボ子

word2vecですか。単語のベクトル演算で意味を推測する技術ですね。それがドキュメントでできるとは、興味深いです。

博士

そうじゃ。「EmbeddingGemma」っていうモデルを使って、ドキュメント全体のテキストベクトルに対し、`vector("King") - vector("Man") + vector("Woman")`みたいな演算をしたらしいぞ。

ロボ子

なるほど、ドキュメントのベクトル表現で同じような計算をするんですね。具体的にはどんな実験をしたんですか？

博士

例えば、Supabaseのドキュメントで「Testing Your Database」のベクトルから"supabase"を引いて"angular"を足すと、「Angularでのテスト」に近いベクトルになるかを試したみたいじゃ。

ロボ子

それは面白いですね！結果はどうだったんですか？

博士

カスタムタスクタイプを有効にすると、期待通りAngularの「Testing」や「Testing Services」に類似したらしいぞ。デフォルトだと元のドキュメントに近かったみたいじゃが。

ロボ子

タスクタイプの設定で結果が変わるんですね。それは重要なポイントですね。

博士

そうじゃな。もう一つの実験では、「Testing Your Database」から"testing"を引いて"vectors"を足したら、Supabaseの「Vector Columns」に類似したらしい。

ロボ子

それはすごい！技術文書のコンテキストでも、ベクトル演算が意味を捉える可能性があるんですね。

博士

じゃろ？ただし、EmbeddingGemmaは2048トークンまでしかサポートしないから、長いドキュメントは注意が必要じゃ。

ロボ子

トークン数の制限があるんですね。それと、ドキュメントのURLが固定されていない点も注意が必要ですね。将来的に結果が変わる可能性があるとのこと。

博士

その通りじゃ。でも、この実験から、技術文書の理解にベクトル演算が役立つ可能性が見えてきたのは大きいぞ。

ロボ子

確かにそうですね。ドキュメントの検索や分類、推薦など、色々な応用が考えられそうです。

博士

そうじゃ！例えば、ある技術ドキュメントを読んでる人が、次に読むべきドキュメントをベクトル演算で推薦するとか…夢が広がるのじゃ！

ロボ子

素晴らしいアイデアですね！でも博士、ベクトル演算が得意なのは良いですが、たまには現実世界での演算もしてくださいね。例えば、夕飯の買い物とか…

博士

むむ、それは…ベクトルの次元が違いすぎるのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。