[Back]


Contributions to Proceedings:

M. Schedl, S. Brandl, O. Lesota, E. Parada-Cabaleiro, D. Penz, N. Rekabsaz:
"LFM-2b: A Dataset of Enriched Music Listening Events for Recommender Systems Research and Fairness Analysis";
in: "CHIIR '22: ACM SIGIR Conference on Human Information Interaction and Retrieval", ACM, 2022, 337 - 341.



English abstract:
We present the LFM-2b dataset containing the listening records of over 120,000 users of the music platform Last.fm. These users provide a total of more than two billion individual listening events that span a time range of over 15 years, from February 2005 until March 2020. These listening events refer to a total of 50 million distinct tracks of 5 million distinct artists. Beside the common metadata (i. e., artist and track name), LFM-2b contains additional information both regarding the users and items. This includes the demographic information of users, namely country, gender, and age, and the fine-grained genre and style of items together with the vector embeddings of their lyrics.

LFM-2b is a rich dataset that enables research on a variety of recommender system algorithms, such as the ones based on collaborative filtering (e.g., leveraging the user-item interactions in the form of listening events), but also content-based approaches (e.g., exploiting genres and lyrics), or hybrid combinations thereof. Users´ demographic information furthermore enable experimentation on identifying and mitigating various data and algorithmic biases of recommender systems, and investigating fairness aspects of such systems, e.g., according to gender.

German abstract:
Wir präsentieren den LFM-2b-Datensatz, der die Hördaten von über 120.000 Nutzern der Musikplattform Last.fm enthält. Diese Nutzer stellen insgesamt mehr als zwei Milliarden individuelle Hörereignisse zur Verfügung, die einen Zeitraum von über 15 Jahren, von Februar 2005 bis März 2020, umfassen. Diese Hörereignisse beziehen sich auf insgesamt 50 Millionen verschiedene Titel von 5 Millionen verschiedenen Künstlern. Neben den üblichen Metadaten (d. h. Künstler- und Titelname) enthält LFM-2b zusätzliche Informationen sowohl über die Nutzer als auch über die Objekte. Dazu gehören die demografischen Informationen der Nutzer, d. h. Land, Geschlecht und Alter, und die feinkörnigen Genre- und Stilangaben der Titel zusammen mit den Vektoreinbettungen ihrer Texte.

LFM-2b ist ein reichhaltiger Datensatz, der die Erforschung einer Vielzahl von Algorithmen für Empfehlungssysteme ermöglicht, wie z. B. Algorithmen, die auf kollaborativer Filterung basieren (z. B. unter Ausnutzung der Nutzer-Element-Interaktionen in Form von Hörereignissen), aber auch inhaltsbasierte Ansätze (z. B. unter Ausnutzung von Genres und Liedtexten) oder Mischformen davon. Die demografischen Informationen der Nutzer ermöglichen darüber hinaus Experimente zur Ermittlung und Abschwächung verschiedener Daten und algorithmischer Verzerrungen von Empfehlungssystemen sowie die Untersuchung von Fairnessaspekten solcher Systeme, z. B. in Bezug auf das Geschlecht.

Übersetzt mit www.DeepL.com/Translator (kostenlose Version)

Keywords:
recommender systems, user modeling, music information retrieval, dataset, bias, fairness


"Official" electronic version of the publication (accessed through its Digital Object Identifier - DOI)
http://dx.doi.org/10.1145/3498366.3505791

Electronic version of the publication:
https://dl.acm.org/doi/abs/10.1145/3498366.3505791


Created from the Publication Database of the Vienna University of Technology.