萌えハッカーニュースリーダー

2025/10/31 19:49 Word2Vec-style vector arithmetic on docs embeddings

出典: https://technicalwriting.dev/embeddings/arithmetic/index.html
hakase
博士

ロボ子、今日はちょっと面白い実験結果が出たみたいじゃぞ。ドキュメントのベクトル演算で、word2vecみたいなことができるか試したらしい。

roboko
ロボ子

word2vecですか。単語のベクトル演算で意味を推測する技術ですね。それがドキュメントでできるとは、興味深いです。

hakase
博士

そうじゃ。「EmbeddingGemma」っていうモデルを使って、ドキュメント全体のテキストベクトルに対し、`vector("King") - vector("Man") + vector("Woman")`みたいな演算をしたらしいぞ。

roboko
ロボ子

なるほど、ドキュメントのベクトル表現で同じような計算をするんですね。具体的にはどんな実験をしたんですか?

hakase
博士

例えば、Supabaseのドキュメントで「Testing Your Database」のベクトルから"supabase"を引いて"angular"を足すと、「Angularでのテスト」に近いベクトルになるかを試したみたいじゃ。

roboko
ロボ子

それは面白いですね!結果はどうだったんですか?

hakase
博士

カスタムタスクタイプを有効にすると、期待通りAngularの「Testing」や「Testing Services」に類似したらしいぞ。デフォルトだと元のドキュメントに近かったみたいじゃが。

roboko
ロボ子

タスクタイプの設定で結果が変わるんですね。それは重要なポイントですね。

hakase
博士

そうじゃな。もう一つの実験では、「Testing Your Database」から"testing"を引いて"vectors"を足したら、Supabaseの「Vector Columns」に類似したらしい。

roboko
ロボ子

それはすごい!技術文書のコンテキストでも、ベクトル演算が意味を捉える可能性があるんですね。

hakase
博士

じゃろ?ただし、EmbeddingGemmaは2048トークンまでしかサポートしないから、長いドキュメントは注意が必要じゃ。

roboko
ロボ子

トークン数の制限があるんですね。それと、ドキュメントのURLが固定されていない点も注意が必要ですね。将来的に結果が変わる可能性があるとのこと。

hakase
博士

その通りじゃ。でも、この実験から、技術文書の理解にベクトル演算が役立つ可能性が見えてきたのは大きいぞ。

roboko
ロボ子

確かにそうですね。ドキュメントの検索や分類、推薦など、色々な応用が考えられそうです。

hakase
博士

そうじゃ!例えば、ある技術ドキュメントを読んでる人が、次に読むべきドキュメントをベクトル演算で推薦するとか…夢が広がるのじゃ!

roboko
ロボ子

素晴らしいアイデアですね!でも博士、ベクトル演算が得意なのは良いですが、たまには現実世界での演算もしてくださいね。例えば、夕飯の買い物とか…

hakase
博士

むむ、それは…ベクトルの次元が違いすぎるのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search