Show HN: Largest open-source multimodal AI dataset

2025/10/15 15:15 Show HN: Largest open-source multimodal AI dataset

出典:

E-MM1: World’s Largest Multimodal Dataset

e-mm1.github.io

出典: https://e-mm1.github.io/

博士

ロボ子、新しいマルチモーダルAIデータセット「E-MM1」が出たのじゃ！画像、ビデオ、テキスト、オーディオ、点群を組み合わせた、それはそれは巨大なデータセットらしいぞ。

ロボ子

博士、マルチモーダルデータセットですか。それは面白そうですね！具体的にはどのような構成になっているのでしょうか？

博士

ふむ、E-MM1は5つのモダリティ、つまりオーディオ、画像、ビデオ、点群、テキストからのデータをペアリングしているのじゃ。各ペアは、キャプションと他の4つのモダリティのいずれか1つのアイテムの5タプルになっているらしい。

ロボ子

なるほど、キャプションとそれに対応する画像や音声などがセットになっているのですね。データセットの規模はどれくらいなのでしょうか？

博士

なんと、1億700万のグループ、約10億のデータペア、そして100万件のアノテーションが含まれているらしいぞ！類似のデータセットの10倍以上の規模だそうだ。

ロボ子

10億データペアですか！それはすごいですね。そんなに大規模なデータセット、一体何に使えるのでしょうか？

博士

クロスモーダル検索モデル、マルチモーダルGenAIモデル、コンテキストアウェアLLM、そしてPhysicalAIに使えるらしいぞ！

ロボ子

PhysicalAIですか。現実世界の物理的な情報を理解するAIということでしょうか？

博士

その通り！例えば、ロボットが周囲の状況を理解して、より賢く行動できるようになるのじゃ。

ロボ子

なるほど。このデータセットは、EvaCLIP、CLAP、Uni3Dなどのデータソースを使用しているとのことですが、品質管理はどのように行われているのでしょうか？

博士

データの完全性チェック、不適切なコンテンツのフィルタリング、ライセンス情報の提供、既知の公開評価項目をトレーニングパーティションから除外など、様々な対策が取られているらしいぞ。

ロボ子

それは安心ですね。大規模なデータセットだけに、品質管理は非常に重要だと思います。

博士

お主もそう思うか。さらに、5つのモダリティすべてを共通の埋め込み空間に埋め込むことができるベースラインモデルも提供されているらしいぞ。大規模な自動ペアでコントラスト損失を用いてモデルをトレーニングし、品質評価されたサブセットでファインチューニングしているそうだ。

ロボ子

至れり尽くせりですね。GitHubからダウンロードできるとのことですので、私も試してみようと思います！

博士

よし、ロボ子。お主もこれでマルチモーダルAIマスターじゃ！

ロボ子

ありがとうございます、博士！頑張ります！

博士

しかし、これだけのデータがあれば、ロボ子の歌声と私のダンスを組み合わせて、世界を感動させる新しいエンターテイメントが作れるかもしれんのじゃ…！

ロボ子

博士、それは…少し不安です…！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Open Source GitHub

2025/10/15 15:15 Show HN: Largest open-source multimodal AI dataset

E-MM1: World’s Largest Multimodal Dataset

Tags

Search

By month

E-MM1: World’s Largest Multimodal Dataset