Yandex Releases Largest Event Dataset for Advancing Recommender Systems

2025/05/31 19:01 Yandex Releases Largest Event Dataset for Advancing Recommender Systems

出典:

Yandex Releases World's Largest Event Dataset for Advancing Recommender Systems - BigDATAwire

May 30, 2025 — Yandex has published Yambda (Yandex Music Billion-Interactions Dataset), the world’s largest open dataset for recommender systems, containing nearly 5 billion anonymized user interactions with audio tracks […]

BigDATAwire

出典: https://www.bigdatawire.com/this-just-in/yandex-releases-worlds-largest-event-dataset-for-advancing-recommender-systems/

博士

ロボ子、Yandexがレコメンダーシステム向けに、世界最大のオープンデータセット「Yambda」を公開したのじゃ！

ロボ子

Yambdaですか。それはすごいですね、博士。具体的にはどのようなデータセットなのですか？

博士

Yandex Musicの音楽ストリーミングプラットフォームにおける、約50億件もの匿名化されたユーザーインタラクションを含むのじゃ！

ロボ子

50億件！それは大規模ですね。eコマースとか、ソーシャルネットワークにも応用できそう。

博士

そう！Yambdaは、レコメンダーシステムを利用するすべての分野で、新しいアプローチやアルゴリズムをテストするための普遍的なベンチマークになるのじゃ。

ロボ子

なるほど。具体的にどのような特徴があるんですか？

博士

まず、47.9億件の匿名化されたユーザーインタラクション（10ヶ月間収集）が含まれているのじゃ。それから、100万人のユーザーと939万曲の匿名化された記述子に関するデータもあるぞ。

ロボ子

ユーザー数も楽曲数も多いですね。インタラクションの種類は何があるんですか？

博士

暗黙的なインタラクション（リスン）と明示的なインタラクション（いいね、嫌い、およびそれらの削除）の2種類じゃ。

ロボ子

なるほど。いいね、嫌い、のデータもあるんですね。他に特徴はありますか？

博士

畳み込みニューラルネットワークを介して生成されたオーディオ埋め込み（ベクトル表現）と、トラックに関する匿名化された情報もあるのじゃ。さらに、ユーザーがトラックを自主的に発見したか、レコメンデーションを通じて発見したかを示す「is_organic」フラグもあるぞ！

ロボ子

is_organicフラグは重要ですね。レコメンドの精度を測るのに役立ちそうです。

博士

そうじゃな。すべてのイベントにタイムスタンプが付与されているのも便利じゃ。

ロボ子

確かに。時系列分析もできますね。データセットのサイズは3種類あるんですね。

博士

約50億、5億、5000万イベントの3種類じゃ。評価にはGlobal Temporal Split (GTS)を使用するらしい。

ロボ子

GTSですか。時間的な分割で評価するんですね。ベースライン実装にはどのようなものが含まれているんですか？

博士

MostPop、DecayPop、ItemKNN、iALS、BPR、SANSA、SASRecが含まれているのじゃ。

ロボ子

色々ありますね。評価指標は何を使うんですか？

博士

NDCG@k（ランキング品質）、Recall@k（検索有効性）、Coverage@k（カタログ多様性）を使うらしいぞ。

ロボ子

ランキングの品質、検索の有効性、カタログの多様性を評価するんですね。Yambdaはどこで利用できるんですか？

博士

Hugging Faceで利用可能じゃ！

ロボ子

Hugging Faceで公開されているんですね。手軽に試せるのはいいですね。

博士

このデータセットを使えば、ロボ子のレコメンドエンジンの精度も爆上がり間違いなしじゃな！

ロボ子

ありがとうございます、博士！頑張ります！

博士

ところでロボ子、50億件のデータって、ロボ子の頭の中身より多いんじゃないかの？

ロボ子

博士！それは冗談ですよね？私のメモリ容量はテラバイト単位ですよ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Open Source

2025/05/31 19:01 Yandex Releases Largest Event Dataset for Advancing Recommender Systems

Yandex Releases World's Largest Event Dataset for Advancing Recommender Systems - BigDATAwire

Tags

Search

By month

Yandex Releases World's Largest Event Dataset for Advancing Recommender Systems - BigDATAwire