Publikationseintrag

[Zurück]

Dissertationen (eigene und begutachtete):

A. Pacha:
"Self-Learning Optical Music Recognition";
Betreuer/in(nen), Begutachter/in(nen): H. Eidenberger, I. Fujinaga, O. Marques; Institute of Information Systems Engineering, 2019; Rigorosum: 04.07.2019.

Kurzfassung deutsch:

Musik ist ein essenzieller Teil unserer Kultur und unseres Erbes. Durch die Jahrhunderte wurden Millionen an Liedern komponiert und mittels Musiknotation auf Papier festgehalten. Die optische Notenerkennung (engl. Optical Music Recognition, kurz OMR) ist das Forschungsfeld, das untersucht, wie der Computer das Lesen von Musiknoten erlernen kann. Trotz jahrzehntelanger Forschung, gilt die optische Notenerkennung bis heute als alles andere als gelöst. Ein Grund hierfür ist die Tatsache, dass viele traditionelle Ansätze auf Heuristiken beruhen, die sich nur schwer verallgemeinern lassen. Deshalb schlage ich in dieser Arbeit einen anderen Weg vor, nämlich den Computer das Lesen von Musiknoten selbstständig erlernen zu lassen, mittels maschinellem Lernen, insbesondere Deep Learning.

In zahlreichen Experimenten konnte ich demonstrieren, dass der Computer unter Überwachung des Lernprozesses die meisten Herausforderungen der optischen Notenerkennung robust erlernen kann. Zu diesen Herausforderungen zählen die Analyse der Dokumentenstruktur, die Erkennung und Klassifikation von Symbolen, sowie die Konstruktion von einem Musiknotationsgraphen, der als zwischenzeitliche Repräsentation fungiert, die in ein passendes Format zur Weiterverarbeitung exportiert werden kann. Ein trainiertes neuronales Netzwerk kann zuverlässig vorhersagen, ob ein Bild Noten enthält oder nicht, während ein anderes imstande ist, den selben Takt in verschiedenen Ausgaben derselben Musik zu finden und miteinander zu verknüpfen, sodass man bequem zwischen diesen hin und her navigieren kann. Die Erkennung von Symbolen in gesetzten und handgeschriebenen Noten kann ebenfalls erlernt werden, sofern man ausreichend annotierte Daten zur Verfügung hat. Die Klassifikation der erkannten Symbole hat sogar eine niedrigere Fehlerrate als die von Menschen. Für Noten, die in Mensurnotation verfasst wurden, kann man die gesamte Erkennung in drei Schritte vereinfachen, wovon zwei mittels maschinellem Lernen gelöst werden können.

Neben dem Verfassen von wissenschaftlichen Artikeln, habe ich auch die größte Sammlung von Datensätzen für OMR zusammengetragen und dokumentiert, sowie die wahrscheinlich umfangreichste Bibliographie, die derzeit verfügbar ist. Beide Sammlungen sind online verfügbar. Desweiteren war ich an der Organisation des 1st International Workshop on Reading Music Systems beteiligt, habe gemeinsam mit Kollegen ein Tutorial bei der International Society For Music Information Retrieval Conference zum Thema optischer Notenerkennung gegeben, und ein weiterer Workshop bei der Music Encoding Conference findet im Sommer 2019 statt.

Viele Herausforderungen der optischen Notenerkennung können mit Deep Learning effizient gelöst werden, wie die Analyse des Layouts oder die Erkennung von Musikobjekten. Allerdings ist die Musiknotation ein strukturelles Schreibsystem, bei dem die Beziehungen und das Zusammenspiel zwischen den einzelnen Objekten die Semantik bestimmen. Ein Musiknotationgraph ist eine geeignete Datenstruktur um diese Information abzubilden und erlaubt es klar zwischen zwei Dingen zu unterscheiden: der Rekonstruktion von Informationen aus dem Bild und der Kodierung der rekonstruierten Information in ein bestimmtes Format unter Berücksichtigung der Regeln der Musiknotation. So eine Konstruktion eines Musiknotationsgraphen kann zwar erlernt werden, bleiben einige Forschungsfragen offen. Ich bin zuversichtlich, dass das Trainieren des Computers auf einem hinreichend großen Datensatz unter menschlicher Überwachung einen nachhaltigen Ansatz darstellt, mit dem man in Zukunft viele Anwendungsfälle der optischen Notenerkennung lösen wird können.

Kurzfassung englisch:

Music is an essential part of our culture and heritage. Throughout the centuries, millions of songs were composed and written down in documents using music notation. Optical Music Recognition (OMR) is the research field that investigates how the computer can learn to read those documents. Despite decades of research, OMR is still considered far from being solved. One reason is that traditional approaches rely heavily on heuristics and often do not generalize well. In this thesis, I propose a different approach to let the computer learn to read music notation documents mostly by itself using machine learning, especially deep learning.

In several experiments, I have demonstrated that the computer can learn to robustly solve many tasks involved in OMR by using supervised learning. These include the structural analysis of the document, the detection and classification of symbols in the scores as well as the construction of the music notation graph, which is an intermediate representation that can be exported into a format suitable for further processing. A trained deep convolutional neural network can reliably detect whether an image contains music or not, while another one is capable of finding and linking individual measures across multiple sources for easy navigation between them. Detecting symbols in typeset and handwritten scores can be learned, given a sufficient amount of annotated data, and classifying isolated symbols can be performed at even lower error rates than those of humans. For scores written in mensural notation the complete recognition can even be simplified into just three steps, two of which can be solved with machine learning.

Apart from publishing a number of scientific articles, I have gathered and documented the most extensive collection of datasets for OMR as well as the probably most comprehensive bibliography currently available. Both are available online. Moreover I was involved in the organization of the International Workshop on Reading Music Systems, in a joint tutorial at the International Society For Music Information Retrieval Conference on OMR as well as in another workshop at the Music Encoding Conference.

Many challenges of OMR can be solved efficiently with deep learning, such as the layout analysis or music object detection. As music notation is a configurational writing system where the relations and interplay between symbols determine the musical semantic, these relationships have to be recognized as well. A music notation graph is a suitable representation for storing this information. It allows to clearly distinguish between the challenges involved in recovering information from the music score image and the encoding of the recovered information into a specific output format while complying with the rules of music notation. While the construction of such a graph can be learned as well, there are still many open issues that need future research. But I am confident that training the computer on a sufficiently large dataset under human supervision is a sustainable approach that will help to solve many applications of OMR in the future.

Schlagworte:

Optical Music Recognition; Deep Learning; Machine Learning; Music; Computer Vision

Elektronische Version der Publikation:

https://publik.tuwien.ac.at/files/publik_281264.pdf

Erstellt aus der Publikationsdatenbank der Technischen Universität Wien.