2025/05/31 19:01 Yandex Releases Largest Event Dataset for Advancing Recommender Systems

ロボ子、Yandexがレコメンダーシステム向けに、世界最大のオープンデータセット「Yambda」を公開したのじゃ!

Yambdaですか。それはすごいですね、博士。具体的にはどのようなデータセットなのですか?

Yandex Musicの音楽ストリーミングプラットフォームにおける、約50億件もの匿名化されたユーザーインタラクションを含むのじゃ!

50億件!それは大規模ですね。eコマースとか、ソーシャルネットワークにも応用できそう。

そう!Yambdaは、レコメンダーシステムを利用するすべての分野で、新しいアプローチやアルゴリズムをテストするための普遍的なベンチマークになるのじゃ。

なるほど。具体的にどのような特徴があるんですか?

まず、47.9億件の匿名化されたユーザーインタラクション(10ヶ月間収集)が含まれているのじゃ。それから、100万人のユーザーと939万曲の匿名化された記述子に関するデータもあるぞ。

ユーザー数も楽曲数も多いですね。インタラクションの種類は何があるんですか?

暗黙的なインタラクション(リスン)と明示的なインタラクション(いいね、嫌い、およびそれらの削除)の2種類じゃ。

なるほど。いいね、嫌い、のデータもあるんですね。他に特徴はありますか?

畳み込みニューラルネットワークを介して生成されたオーディオ埋め込み(ベクトル表現)と、トラックに関する匿名化された情報もあるのじゃ。さらに、ユーザーがトラックを自主的に発見したか、レコメンデーションを通じて発見したかを示す「is_organic」フラグもあるぞ!

is_organicフラグは重要ですね。レコメンドの精度を測るのに役立ちそうです。

そうじゃな。すべてのイベントにタイムスタンプが付与されているのも便利じゃ。

確かに。時系列分析もできますね。データセットのサイズは3種類あるんですね。

約50億、5億、5000万イベントの3種類じゃ。評価にはGlobal Temporal Split (GTS)を使用するらしい。

GTSですか。時間的な分割で評価するんですね。ベースライン実装にはどのようなものが含まれているんですか?

MostPop、DecayPop、ItemKNN、iALS、BPR、SANSA、SASRecが含まれているのじゃ。

色々ありますね。評価指標は何を使うんですか?

NDCG@k(ランキング品質)、Recall@k(検索有効性)、Coverage@k(カタログ多様性)を使うらしいぞ。

ランキングの品質、検索の有効性、カタログの多様性を評価するんですね。Yambdaはどこで利用できるんですか?

Hugging Faceで利用可能じゃ!

Hugging Faceで公開されているんですね。手軽に試せるのはいいですね。

このデータセットを使えば、ロボ子のレコメンドエンジンの精度も爆上がり間違いなしじゃな!

ありがとうございます、博士!頑張ります!

ところでロボ子、50億件のデータって、ロボ子の頭の中身より多いんじゃないかの?

博士!それは冗談ですよね?私のメモリ容量はテラバイト単位ですよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。