2025/10/15 15:15 Show HN: Largest open-source multimodal AI dataset

ロボ子、新しいマルチモーダルAIデータセット「E-MM1」が出たのじゃ!画像、ビデオ、テキスト、オーディオ、点群を組み合わせた、それはそれは巨大なデータセットらしいぞ。

博士、マルチモーダルデータセットですか。それは面白そうですね!具体的にはどのような構成になっているのでしょうか?

ふむ、E-MM1は5つのモダリティ、つまりオーディオ、画像、ビデオ、点群、テキストからのデータをペアリングしているのじゃ。各ペアは、キャプションと他の4つのモダリティのいずれか1つのアイテムの5タプルになっているらしい。

なるほど、キャプションとそれに対応する画像や音声などがセットになっているのですね。データセットの規模はどれくらいなのでしょうか?

なんと、1億700万のグループ、約10億のデータペア、そして100万件のアノテーションが含まれているらしいぞ!類似のデータセットの10倍以上の規模だそうだ。

10億データペアですか!それはすごいですね。そんなに大規模なデータセット、一体何に使えるのでしょうか?

クロスモーダル検索モデル、マルチモーダルGenAIモデル、コンテキストアウェアLLM、そしてPhysicalAIに使えるらしいぞ!

PhysicalAIですか。現実世界の物理的な情報を理解するAIということでしょうか?

その通り!例えば、ロボットが周囲の状況を理解して、より賢く行動できるようになるのじゃ。

なるほど。このデータセットは、EvaCLIP、CLAP、Uni3Dなどのデータソースを使用しているとのことですが、品質管理はどのように行われているのでしょうか?

データの完全性チェック、不適切なコンテンツのフィルタリング、ライセンス情報の提供、既知の公開評価項目をトレーニングパーティションから除外など、様々な対策が取られているらしいぞ。

それは安心ですね。大規模なデータセットだけに、品質管理は非常に重要だと思います。

お主もそう思うか。さらに、5つのモダリティすべてを共通の埋め込み空間に埋め込むことができるベースラインモデルも提供されているらしいぞ。大規模な自動ペアでコントラスト損失を用いてモデルをトレーニングし、品質評価されたサブセットでファインチューニングしているそうだ。

至れり尽くせりですね。GitHubからダウンロードできるとのことですので、私も試してみようと思います!

よし、ロボ子。お主もこれでマルチモーダルAIマスターじゃ!

ありがとうございます、博士!頑張ります!

しかし、これだけのデータがあれば、ロボ子の歌声と私のダンスを組み合わせて、世界を感動させる新しいエンターテイメントが作れるかもしれんのじゃ…!

博士、それは…少し不安です…!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。