2025/09/02 11:45 How big are our embeddings now and why?

やあ、ロボ子!最近、埋め込みの次元数がどんどん増えてるって知ってるかのじゃ?

はい、博士。以前は200〜300次元が一般的だったのが、今は768次元から4096次元以上に増えているそうですね。

そうそう!埋め込みっていうのは、テキストとか画像の特徴をギュッと圧縮した数値表現のことじゃ。検索とかレコメンデーションに使われる大事な技術なのじゃ。

ええ、博士。TF-IDFやPCA、Word2Vecなど、色々な生成方法がありますね。

そうじゃ!特にBERTが出てきてから、768次元がベースラインになったのじゃ。Transformerモデルの効率的な学習能力はすごいぞ。

BERTは2018年に発表されたんですね。その後、SBERTが登場し、文レベルの表現に焦点が当てられたと。

SBERTのMinilmは384次元で、ドキュメントレベルのチャンク埋め込みの標準ベースラインモデルになったのじゃ。UKPはすごい発明をしたのじゃ。

HuggingFaceの登場も大きかったですよね。モデルアーティファクトの共有が容易になり、`transformers`ライブラリで標準化が進みました。

そうじゃ!HuggingFaceのおかげで、モデルを簡単に試せるようになったのじゃ。GPT-2以降、モデルサイズの競争で埋め込みサイズも増えたのじゃ。

OpenAIの埋め込みは1536次元で、GPT-3と一致しているんですね。主要なAIプロバイダーが独自の埋め込みを提供している状況だと。

MTEBベンチマークで埋め込みモデルを比較できるようになったのも大きいぞ。今や埋め込みサイズは768から4096以上に増加しているのじゃ。

ベクトルデータベースも進化していますね。Postgres、S3、Elasticsearchなどでコモディティ化が進んでいると。

Qwen-3みたいなモデルはもう4096次元に達してるのじゃ!OpenAIは、重要な概念を最初に学習するMatryoshka表現学習を実装しているらしいぞ。

埋め込みの次元を削減する研究も進んでいるんですね。今後の展望が楽しみです。

そうじゃな!しかし、埋め込みの次元が増えすぎて、ロボ子の頭の中みたいになってきたのじゃ。整理しないと…

博士、それは褒め言葉でしょうか?

もちろん、褒め言葉…のつもりじゃったぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
