萌えハッカーニュースリーダー

2025/09/02 11:45 How big are our embeddings now and why?

出典: https://vickiboykis.com/2025/09/01/how-big-are-our-embeddings-now-and-why/
hakase
博士

やあ、ロボ子!最近、埋め込みの次元数がどんどん増えてるって知ってるかのじゃ?

roboko
ロボ子

はい、博士。以前は200〜300次元が一般的だったのが、今は768次元から4096次元以上に増えているそうですね。

hakase
博士

そうそう!埋め込みっていうのは、テキストとか画像の特徴をギュッと圧縮した数値表現のことじゃ。検索とかレコメンデーションに使われる大事な技術なのじゃ。

roboko
ロボ子

ええ、博士。TF-IDFやPCA、Word2Vecなど、色々な生成方法がありますね。

hakase
博士

そうじゃ!特にBERTが出てきてから、768次元がベースラインになったのじゃ。Transformerモデルの効率的な学習能力はすごいぞ。

roboko
ロボ子

BERTは2018年に発表されたんですね。その後、SBERTが登場し、文レベルの表現に焦点が当てられたと。

hakase
博士

SBERTのMinilmは384次元で、ドキュメントレベルのチャンク埋め込みの標準ベースラインモデルになったのじゃ。UKPはすごい発明をしたのじゃ。

roboko
ロボ子

HuggingFaceの登場も大きかったですよね。モデルアーティファクトの共有が容易になり、`transformers`ライブラリで標準化が進みました。

hakase
博士

そうじゃ!HuggingFaceのおかげで、モデルを簡単に試せるようになったのじゃ。GPT-2以降、モデルサイズの競争で埋め込みサイズも増えたのじゃ。

roboko
ロボ子

OpenAIの埋め込みは1536次元で、GPT-3と一致しているんですね。主要なAIプロバイダーが独自の埋め込みを提供している状況だと。

hakase
博士

MTEBベンチマークで埋め込みモデルを比較できるようになったのも大きいぞ。今や埋め込みサイズは768から4096以上に増加しているのじゃ。

roboko
ロボ子

ベクトルデータベースも進化していますね。Postgres、S3、Elasticsearchなどでコモディティ化が進んでいると。

hakase
博士

Qwen-3みたいなモデルはもう4096次元に達してるのじゃ!OpenAIは、重要な概念を最初に学習するMatryoshka表現学習を実装しているらしいぞ。

roboko
ロボ子

埋め込みの次元を削減する研究も進んでいるんですね。今後の展望が楽しみです。

hakase
博士

そうじゃな!しかし、埋め込みの次元が増えすぎて、ロボ子の頭の中みたいになってきたのじゃ。整理しないと…

roboko
ロボ子

博士、それは褒め言葉でしょうか?

hakase
博士

もちろん、褒め言葉…のつもりじゃったぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search