Publication Entry

[Back]

Doctor's Theses (authored and supervised):

R. Vogl:
"Deep Learning Methods for Drum Transcription and Drum Pattern Generation";
Supervisor, Reviewer: G. Widmer, P. Knees, M. Davies; Johannes Kepler University Linz, 2018.

English abstract:

This thesis is situated in the field of music information retrieval and addresses the tasks of automatic drum transcription and automatic drum pattern generation. Automatic drum transcription deals with the problem of extracting a symbolic representation of the notes played by drum instruments from an audio signal. Automatic drum pattern generation aims at generating novel, musically meaningful and interesting rhythmic patterns involving several percussion instruments.
The first part of this thesis focuses on automatic drum transcription. Music transcription from audio is a hard task, which can be challenging even for trained human experts. Challenges in drum transcription are the large variety of sounds for individual instrument types as well as groups of similar sounding instruments like different types of cymbals or tom-toms of varying sizes. The contributions covered by the drum transcription part introduce end-to-end deep learning methods for this task. With these, a new state of the art is established on a variety of public drum transcription datasets, as well as in the MIREX drum transcription competition. Furthermore, two additional objectives are met: (i) adding meta information like bar boundaries, meter, and local tempo to the transcripts, as well as (ii) increasing the number of instruments under observation. While traditionally, only bass drum, snare drum, and hi-hat have been focused on, in this thesis up to 18 different instrument classes are considered.
The second part of this thesis deals with automatic drum pattern generation. The goal is to generate patterns which are musically meaningful and indistinguishable from human-created ones, and at the same time are not trivial but interesting. Evaluating generative methods is non-trivial, since quality in this context is subjective. This issue is addressed by conducting qualitative and quantitative user studies for evaluation purposes. Two different models are proposed for drum pattern generation: restricted Boltzmann machines (RBMs) and generative adversarial networks (GANs). While RBMs are comparably easy to train, GANs are more problematic in this respect, requiring more training data; on the other hand, GANs can better handle a greater variety of instruments and higher temporal resolutions.
The need for data is met through two different approaches: (i) by creating synthetic large scale drum pattern datasets, and (ii) by leveraging the drum transcription methods from the first part of the thesis to extract drum patterns from real audio. Besides these methodological contributions, different user interfaces for drum pattern generation are implemented and evaluated in user studies.
In addition, this thesis offers publicly available datasets and trained models for drum transcription as resources for the research community.

German abstract:

Die vorliegende Dissertation ist im Bereich Music Information Retrieval anzusiedeln und befasst sich mit automatischer Schlagzeugtranskription und automatischer Generierung von Drum-Patterns. Unter Schlagzeugtranskription versteht man den Prozess eine symbolische Darstellung der von Schlaginstrumenten gespielten Noten aus einem Audiosignal zu extrahieren. Bei der automatischen Generierung von Drum-Patterns gilt es Methoden zur Erzeugung von musikalisch sinnvollen, neuartigen und interessanten Rhythmen für Schlaginstrumente zu finden.
Der erste Teil dieser Arbeit befasst sich mit automatischer Schlagzeugtranskription. Transkription von Musik ist eine schwierige Aufgabe, die selbst für Fachkundige anspruchsvoll sein kann. Herausforderungen bei der Schlagzeugtranskription sind einerseits die klangliche Vielfalt einzelner Instrumenttypen, andererseits die Differenzierung innerhalb Gruppen ähnlich klingender Instrumente wie z.B. verschiedene Arten von Becken oder Trommeln unterschiedlicher Größe. In dieser Arbeit werden end-to-end Deep-Learning-Methoden für Schlag- zeugtranskription verwendet. Mithilfe dieser werden neue Bestresultate auf öffentlichen Datensätzen sowie beim MIREX Schlagzeugtranskriptions-Task erreicht. Darüber hinaus werden zwei weitere Ziele erreicht: (i) Extrahieren zusätzlicher Metainformationen wie Taktgrenzen, Taktart und lokales Tempo, sowie (ii) Erhöhung der Anzahl der Instrumente bei der Transkription. Während in anderen Arbeiten aus diesem Themenbereich nur Bassdrum, Snare und Hi-Hat berücksichtigt werden, kommen hier bis zu 18 verschiedene Instrumentklassen zum Einsatz.
Der zweite Teil dieser Arbeit beschäftigt sich mit der automatischen Generierung von Drum-Patterns. Dabei sollen interessante musikalische Drum-Patterns erzeugt werden, die wie von Menschen kreierte klingen. Die Evaluierung solch generativer Methoden ist im allgemeinen diffizil, da Qualität in diesem Kontext subjektiv ist. Dieses Problem wird mittels qualitativer Interviews und quantitativer Umfragen gelöst. Zur Generierung von Drum-Patterns werden zwei verschiedene Modelle verwendet: Restricted Boltzmann Machines (RBMs) und Generativ Adversarial Networks (GANs). Während RBMs vergleichsweise einfach zu trainieren sind, gestaltet sich dies bei GANs problematischer. GANs benötigen außerdem mehr Trainingsdaten, können jedoch dafür besser mit einer größeren Vielfalt an Instrumenten und höheren zeitlichen Auflösungen umgehen.
Der Bedarf großer Mengen an Trainingsdaten wird auf zwei Arten gedeckt: (i) durch das Erstellen eines großen synthetischen Drum-Pattern-Datensatzes und (ii) mittels der im ersten Teil vorgestellten Transkriptionsmethoden, mit denen Drum-Patterns aus Musik extrahieren werden. Weiters werden verschiedene Softwareprototypen für die Erzeugung von Drumpatterns implementiert und evaluiert.
Als zusätzliches Ergebnis werden erstellte Datensätze und vortrainierte Transkriptionsmodelle der Forschungsgemeinschaft frei zur Verfügung gestellt.

Keywords:

automatic drum transcription, automatic music transcription, machine learning, deep learning

Electronic version of the publication:

https://resolver.obvsg.at/urn:nbn:at:at-ubl:1-25916

Related Projects:

Project Head Peter Knees:
SmarterJam

Created from the Publication Database of the Vienna University of Technology.