Yandex открыл крупнейший датасет Yambda для рекомендательных систем

Yandex представил крупнейший из доступных на сегодняшний момент в открытом доступе датасет для рекомендательных систем, расширяя перспективы глобальных исследований и разработок в области рекомендательных алгоритмов.

Yandex открыл крупнейший датасет Yambda для рекомендательных систем

Yandex опубликовал датасет Yambda (Yandex Music Billion-Interactions Dataset) — крупнейший набор данных для рекомендательных систем. Он содержит почти 5 млрд обезличенных взаимодействий пользователей с аудиотреками Яндекс Музыки, стримингового сервиса Яндекса.

Yambda может стать универсальным стандартом для тестирования новых подходов и алгоритмов во всех сегментах, где используются рекомендательные системы, в том числе в электронной коммерции, социальных сетях, сервисах коротких видео.

С помощью датасета Yambda исследователи смогут разрабатывать новые алгоритмы рекомендаций и оценивать их эффективность в сравнении с бейзлайнами, что ускорит внедрение инноваций. Стартапы с небольшими массивами данных получат свои преимущества, используя Yambda для масштабирования создаваемых и тестируемых ими систем. Всё это будет способствовать глобальному развитию передовых технологий с учётом потребностей бизнеса.

Сокращение разрыва между наукой и индустрией

Для предоставления актуальных рекомендаций в стриминговых сервисах, социальных сетях, приложениях для просмотра коротких видео, а также на маркетплейсах крайне важны качество и объём обучающих данных. Но исследования в области рекомендательных систем не успевают за стремительно развивающимися технологиями, например, такими как большие языковые модели. Во многом это связано с отсутствием доступа к масштабным массивам данных. Для создания эффективных рекомендательных моделей требуются терабайты поведенческих данных, которые есть у коммерческих платформ, но которыми они редко делятся.

Исследователям часто приходится работать с небольшими и устаревшими датасетами, которые не отражают всей сложности современных сценариев использования:

  • датасет Million Playlists от Spotify слишком мал и не подходит для рекомендательных систем промышленного уровня;
  • датасет Netflix Prize содержит около 17 000 объектов с временными метками только в виде даты, что ограничивает возможности
  • временного моделирования и масштабных исследований;
  • датасет 1TB Click Logs от Criteo выложен без надлежащей документации и идентификаторов, а основными его объектами являются клики по рекламным объявлениям.

Из-за недостаточного объёма обучающих данных модели, отлично показавшие себя в академических исследованиях, часто оказываются неэффективными в реальных условиях. Это в том числе затрудняет интеграцию рекомендательных систем с платформами и сервисами, имеющими современную архитектуру.

О датасете Yambda

Yambda позволяет решать актуальные задачи современных рекомендательных систем, так как содержит огромный массив обезличенных данных из Яндекс Музыки, стримингового сервиса, которым каждый месяц пользуется около 28 млн человек. С помощью датасета Yambda можно изучить взаимодействие пользователей с контентом, доступным в Яндекс Музыке. В этом сервисе реализована сложная рекомендательная система "Моя волна", которая подбирает музыку для каждого пользователя с учётом предпочтений. Для обеспечения конфиденциальности все данные о пользователях и треках обезличены, датасет содержит только числовые идентификаторы.

Основные характеристики датасета:

  • 4,79 млрд обезличенных пользовательских действий, собранных за 10 месяцев;
  • данные получены от 1 млн пользователей и обезличенных идентификаторов при взаимодействии с 9,39 млн треков;
  • два типа обратной связи: неявная (прослушивание) и явная (лайки, дизлайки и их отмена);
  • эмбеддинги треков (векторные представления, созданные с помощью свёрточных нейронных сетей) и обезличенная информация о треках;
  • флаг is_organic, который позволяет разграничить органические действия, когда пользователь находит трек самостоятельно, и действия, предложенные рекомендательной системой, что способствует более глубокому анализу поведения;
  • временные метки всех событий (для анализа поведенческой динамики и оценки моделей в условиях, максимально приближенных к реальным).

Датасет выложен в формате Apache Parquet™, который совместим с системами распределённой обработки данных (например, Spark или Hadoop®) и аналитическими библиотеками (например, Pandas и Polars).

Варианты датасета и оценка качества алгоритмов

Датасет Yambda доступен в трёх вариантах (~5 млрд, 500 млн и 50 млн событий) и подходит для любых вычислительных мощностей и разных задач в области исследований и разработки.

Yandex открыл крупнейший датасет Yambda для рекомендательных систем

Yandex открыл крупнейший датасет Yambda для рекомендательных систем

Для оценки качества алгоритмов используется подход Global Temporal Split (GTS), который подразумевает разбивку данных по времени и позволяет сохранить естественную последовательность событий. При использовании подхода Leave-One-Out из истории каждого пользователя в тестовый набор данных откладывается только последнее подтверждённое взаимодействие, что может привести к нарушению временных последовательностей в обучающих и тестовых выборках. GTS исключает эту ситуацию и гарантирует более реалистичное тестирование модели, при котором имитируются реальные условия, а данные из будущего недоступны.

Бейзлайны для сравнения новых подходов к разработке рекомендательных систем были получены при тестировании алгоритмов MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Использовались стандартные метрики, в том числе:

  • NDCG@k — качество ранжирования;
  • Recall@k — способность генерировать релевантные рекомендации;
  • Coverage@k — разнообразие каталога.

Yambda, крупнейший в мире открытый датасет для рекомендательных систем, теперь доступен на Hugging Face.




Любое использование материалов допускается только при наличии гиперссылки на cronos.asia.

Подписывайтесь на Telegram-канал Central Asia Cronos и первыми получайте актуальную информацию!


Мы в Телеграм

Свежие новости