[Back]


Diploma and Master Theses (authored and supervised):

I. Mikusová:
"Estimating Vocal Tract Resonances of Synthesized High-Pitched Vowels Using CNN";
Supervisor: P. Knees, B. Maass, C. Herbst; Institut für Information Systems Engineering, 2022; final examination: 2022-01-10.



English abstract:
In speaking or singing, a source sound coming from the larynx is filtered by the vocal tract. Formants, the maxima of the resulting spectrum, determine the vowel and the timbre of the voice. At speech frequencies, between 100 Hz - 400 Hz, the harmonics of the source sound are spaced densely, so the peaks of the output spectrum largely correspond to the resonance frequencies of the vocal tract filter. At higher fundamental frequencies, like in singing or child speech, the peaks of the output spectrum are determined more by the location of the harmonics than of the filter resonance frequencies. Traditional formant estimation methods, LPC and cepstrum, only use information from the spectral envelope. They perform well at speech frequencies, but at higher fundamental frequencies, they are not able to find the resonance frequencies of the vocal tract and determine the harmonics instead. Information about the location of the resonances is however still present in the sound, e.g. in breathiness and vibrato. A method able to extract this information at high frequencies would solve the current lack of an in vivo ground truth and would be suitable for applications such as singing training, language learning, or various types of speech therapy, such as gender conversion therapy. In this thesis, a convolutional neural network was trained that can determine 6 resonances with mean absolute error 23 Hz. Its performance is stable in the fundamental frequency range of 100 Hz - 1000 Hz and better than that of the LPC algorithm implemented by the software Praat. The influence of the parameters breathiness, vibrato, and resonance spacing has proven to be very important. The real-life applicability was tested with an additional dataset filtered by plastic tubes and a 3D printed vocal tract model. Recommendations were formulated for perfecting the network, by incorporating recorded sounds and various well-designed parameter values in the training data.

German abstract:
Beim Sprechen oder Singen wird ein vom Kehlkopf kommender Schall durch den Vokaltrakt gefiltert. Formanten, die Maxima des resultierenden Spektrums, bestimmen den Vokal und die Stimmfarbe. Bei Sprachfrequenzen liegen die Obertöne der Schallquelle dicht beieinander, so dass die Maxima des Ausgangsspektrums weitgehend mit den Resonanzfrequenzen des Vokaltraktfilters übereinstimmen. Bei höheren Grundfrequenzen, wie bei Gesang oder Kindersprache, werden die Maxima des Ausgangsspektrums eher durch die Lage der Obertöne als durch die Resonanzfrequenzen bestimmt. Die üblichen Verfahren zur Formantschätzung, LPC und Cepstrum, basieren auf der spektralen Hüllkurve. Sie funktionieren gut bei Sprachfrequenzen, aber bei höheren Grundfrequenzen bestimmen sie die Obertöne statt die Resonanzfrequenzen. Informationen über die Lage der Resonanzen sind jedoch immer noch im Klang vorhanden, z. B. in der Behauchung und im Vibrato. Eine Methode, die in der Lage ist, diese Informationen bei hohen Frequenzen zu erkennen, würde das derzeitige Fehlen einer in vivo-Ground-Truth beheben und wäre für Anwendungen wie das Gesangstraining, das Erlernen von Fremdsprachen oder manche Arten der Sprachtherapie, wie z. B. die Geschlechtsumwandlungstherapie, geeignet. In dieser Arbeit wurde ein konvolutionelles neuronales Netz trainiert, das 6 Resonanzen mit einem mittleren absoluten Fehler von 23 Hz bestimmen kann. Die Leistung ist im Grundfrequenzbereich von 100 Hz - 1000 Hz stabil und besser als die des von der Software Praat implementierten LPC-Algorithmus. Der Einfluss der Parameter Behauchung, Vibrato und Resonanzabstand hat sich als sehr wichtig erwiesen. Die Praxisanwendbarkeit wurde mit einem zusätzlichen Datensatz getestet, der mit Kunststoffröhren und einem 3D-gedruckten Vokaltraktmodell gefiltert wurde. Es wurden Empfehlungen für die Perfektionierung des Netzwerks formuliert, indem aufgenommene Klänge und verschiedene gut entworfene Parameterwerte in die Trainingsdaten einbezogen wurden.

Keywords:
Vocal tract resonance, Formant estimation, Speech processing, High pitch, Neural network


"Official" electronic version of the publication (accessed through its Digital Object Identifier - DOI)
http://dx.doi.org/10.34726/hss.2022.89401

Electronic version of the publication:
https://repositum.tuwien.at/bitstream/20.500.12708/19264/1/Mikusova%20Ivana%20-%202022%20-%20Estimating%20Vocal%20Tract%20Resonances%20of%20Synthesized...pdf


Created from the Publication Database of the Vienna University of Technology.