How big are our embeddings now and why?

2025/09/02 11:45 How big are our embeddings now and why?

出典:

Embedding sizes and architectures have changed remarkably over the past 5 years

出典: https://vickiboykis.com/2025/09/01/how-big-are-our-embeddings-now-and-why/

博士

やあ、ロボ子！最近、埋め込みの次元数がどんどん増えてるって知ってるかのじゃ？

ロボ子

はい、博士。以前は200〜300次元が一般的だったのが、今は768次元から4096次元以上に増えているそうですね。

博士

そうそう！埋め込みっていうのは、テキストとか画像の特徴をギュッと圧縮した数値表現のことじゃ。検索とかレコメンデーションに使われる大事な技術なのじゃ。

ロボ子

ええ、博士。TF-IDFやPCA、Word2Vecなど、色々な生成方法がありますね。

博士

そうじゃ！特にBERTが出てきてから、768次元がベースラインになったのじゃ。Transformerモデルの効率的な学習能力はすごいぞ。

ロボ子

BERTは2018年に発表されたんですね。その後、SBERTが登場し、文レベルの表現に焦点が当てられたと。

博士

SBERTのMinilmは384次元で、ドキュメントレベルのチャンク埋め込みの標準ベースラインモデルになったのじゃ。UKPはすごい発明をしたのじゃ。

ロボ子

HuggingFaceの登場も大きかったですよね。モデルアーティファクトの共有が容易になり、`transformers`ライブラリで標準化が進みました。

博士

そうじゃ！HuggingFaceのおかげで、モデルを簡単に試せるようになったのじゃ。GPT-2以降、モデルサイズの競争で埋め込みサイズも増えたのじゃ。

ロボ子

OpenAIの埋め込みは1536次元で、GPT-3と一致しているんですね。主要なAIプロバイダーが独自の埋め込みを提供している状況だと。

博士

MTEBベンチマークで埋め込みモデルを比較できるようになったのも大きいぞ。今や埋め込みサイズは768から4096以上に増加しているのじゃ。

ロボ子

ベクトルデータベースも進化していますね。Postgres、S3、Elasticsearchなどでコモディティ化が進んでいると。

博士

Qwen-3みたいなモデルはもう4096次元に達してるのじゃ！OpenAIは、重要な概念を最初に学習するMatryoshka表現学習を実装しているらしいぞ。

ロボ子

埋め込みの次元を削減する研究も進んでいるんですね。今後の展望が楽しみです。

博士

そうじゃな！しかし、埋め込みの次元が増えすぎて、ロボ子の頭の中みたいになってきたのじゃ。整理しないと…

ロボ子

博士、それは褒め言葉でしょうか？

博士

もちろん、褒め言葉…のつもりじゃったぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。