Publikationseintrag

[Zurück]

Vorträge und Posterpräsentationen (mit Tagungsband-Eintrag):

A. Schindler, T. Lidy, A. Rauber:
"Multi-Temporal Resolution Convolutional Neural Networks for the DCASE Acoustic Scene Classification Task";
Poster: Detection and Classification of Acoustic Scenes and Events, Munich, Germany; 16.11.2017 - 17.11.2017; in: "Proceedings of the Detection and Classification of Acoustic Scenes and Events 2017 Workshop (DCASE2017)", (2017), ISBN: 978-952-15-4042-4; 5 S.

Kurzfassung deutsch:

In diesem Beitrag stellen wir unseren Beitrag zur DCASE 2017 Challenge zur Erfassung und Klassifizierung von akustischen Szenen und Events vor. Wir schlagen eine parallele Convolutional Neural Network Architektur für die Aufgabe vor, akustische Szenen und urbane Klanglandschaften zu klassifizieren. Wir schlagen eine Deep Neural Network-Architektur für die Aufgabe der akustischen Szenenklassifizierung vor, die Informationen aus zunehmenden zeitlichen Auflösungen von Mel-Spektrogramm-Segmenten nutzt. Diese Architektur besteht aus getrennten parallelen Convolutional-Neuronal Networks, die spektrale und zeitliche Darstellungen für jede Eingangsauflösung lernen. Die Auflösung wird entsprechend gewählt, um feinkörnige Eigenschaften der spektralen Textur einer Szene sowie ihre Verteilung von akustischen Ereignissen abzudecken. Die Variante mit der besten Leistung des vorgeschlagenen Modells erreicht eine Genauigkeit von 90,54% im Entwicklungsdatensatz. Dies ist eine Verbesserung von 6,81% des besten Single-Resolution-Modells und von 15,74% der DCASE 2017 Acoustic Scenes Classification-Aufgabe.

Kurzfassung englisch:

In this paper we present our DCASE 2017 Challenge on Detection and Classification of Acoustic Scenes and Events contributions. We propose a parallel Convolutional Neural Network architecture for the task of classifying acoustic scenes and urban sound scapes. We propose a Deep Neural Network architecture for the task of acoustic scene classification which harnesses information from increasing temporal resolutions of Mel-Spectrogram segments. This architecture is composed of separated parallel Convolutional Neural Networks which learn spectral and temporal representations for each input resolution. The resolution are chosen to cover fine-grained characteristics of a scene's spectral texture as well as its distribution of acoustic events. The best performing variant of the proposed model scores 90.54% accuracy on the development dataset. This is a 6.81% improvement of the best performing single resolution model and 15.74% of the DCASE 2017 Acoustic Scenes Classification task baseline.

Schlagworte:

Deep Learning, Convolutional Neural Networks, Acoustic Scene Classification, Audio Analysis

Elektronische Version der Publikation:

http://publik.tuwien.ac.at/files/publik_267113.pdf

Erstellt aus der Publikationsdatenbank der Technischen Universität Wien.