[Zurück]


Dissertationen (eigene und begutachtete):

B. Stöbich:
"Dynamikkompression in Sprachprozessoren für Cochlea Implantate";
Betreuer/in(nen), Begutachter/in(nen): P. Pfundner, E. Hochmair; Institut für Industrielle Elektronik und Materialwissenschaften, 2000.



Kurzfassung deutsch:
Hörstörungen unterschiedlichen Schweregrades finden sich in mehr als 10 % der gesamten Weltbevölkerung. Besonders höchstgradige Schwerhörigkeit bzw. vollständige Taubheit stellt für betroffene Personen ein großes Problem dar, da sie einerseits zwischenmenschliche Kontakte beeinträchtigt und andererseits das Aufnehmen neuer Informationen behindert. Schwerhörigkeit kann bei früh ertaubten bzw. taub geborenen Kindern bei mangelnder intensiver Frühförderung zu Bildungsrückständen und somit zu gesellschaftlichen Problemen führen.
Das aus einer Kette von verschiedensten Strukturen zur Informationweiterleitung bestehende komplexe akustische System des Menschen beginnt im Außenohr und endet im Hörkortex. Eine Schädigung bzw. eine vollständige Unterbrechung des Hörsystems ist im Prinzip an jeder Stelle möglich, es ist jedoch sehr häufig ein Defekt im Innenohr die Ursache für Schwerhörigkeit bzw. Taubheit. Eine solche Innenohrschwerhörigkeit bewirkt i.a. eine massive frequenzabhängige Anhebung der Hörschwelle und dadurch bedingt eine signifikante Reduktion des Dynamikbereichs des Hörsystems. Bei Personen mit einem gewissen nutzbaren Restdynamikbereich gelingt in vielen Fällen eine brauchbare Wiederherstellung des Hörvermögens mittels konventioneller Hörgeräte, die das akustische Signal in seiner Dynamik so komprimieren, daß das noch vorhandene Resthörvermögen optimal ausgenutzt wird. Bei höchstgradig Schwerhörigen bzw. vollständig Tauben ist eine nutzbringende akustische Reizung des Hörsystems nicht mehr möglich. Eine Rehabilitation solcher Personen ist i.a. nur mehr mit einer Innenohr-Prothese (Cochlea Implantat, CI) erfolgreich.
Cochlea Implantate basieren im Gegensatz zu konventionellen Hörgeräten auf dem Prinzip der direkten elektrischen Stimulation des Hörnervs: Ein in der Nähe des Ohres befindliches Mikrophon nimmt die akustischen Signale auf und gibt sie an einen Sprachprozessor weiter, der entweder direkt hinter dem Ohr (HdO) oder am Körper getragen wird. Der Prozessor errechnet daraus in Echtzeit die Stimulationsinformation, die das chirurgisch eingesetzte Implantat über eine Elektrodenkette in Form von Strompulsen an den Hörnerv weiterleitet. Heutige Cochlea Implantate ermöglichen vielen tauben Menschen aufgrund eines bis zu einem gewissen Grad wiedergewonnenen Hörvermögens eine Reintegration in die "hörende Welt".
Einen kritischen Punkt der Signalverarbeitung in einem Cochlea Implantat-System stellt die Dynamikkompression des akustischen Signals dar. Während das gesunde Gehör eines Normalhörenden Signale mit rund 120 dB Dynamik zu verarbeiten vermag, beträgt der nutzbare Dynamikbereich des Hörnervs bei Elektrostimulation kaum mehr als 10 bis 15 dB. Um also einem Implantatträger Zugang zu einem möglichst großen Teil der 120 dB, innerhalb der das "akustische Leben" stattfindet, geben zu können, ist eine Kompression des akustischen Signals unerläßlich.
In modernen Sprachprozessoren erfolgt die Kompression meist zweistufig: Während eine instantane Kompressionsstufe die subjektive Lautheitempfindungsfunktion bei Elektrostimulation in eine akustische Lautheitempfindungsfunktion transformiert und somit für den Implantatträger näherungsweise natürliche Lautheitsempfindungen erzeugt, sorgt eine Regelstufe (AGC) unmittelbar nach dem Mikrophon für eine angenehme Gesamtlautstärke des akustischen Signals. Obwohl wissenschaftliche Forschung auf dem Gebiet der Cochlea Implantate seit mehr als 25 Jahren betrieben wird, kann die Frage, ob und wie sehr die vielen Parameter einer AGC das Sprachverständnis von CI-Trägern beeinflussen, bzw. ob und unter welchen Bedingungen eine AGC (deren Notwendigkeit weltweit diskutiert wird) für den täglichen Gebrauch eines Sprachprozessors überhaupt erforderlich ist, von der Literatur nicht beantwortet werden, da noch nie Studien diese Thematik betreffend veröffentlicht wurden. Im Rahmen der vorliegenden Arbeit wurde erstmals der Einfluß verschiedener AGC-Parameter wie Kompressionsverhältnis, Einschwingzeit und Ausschwingzeit auf das Sprachverständnis mittels objektiver Tests mit Implantatträgern untersucht. Weiters wurde eine bei konventionellen Hörgeräten erfolgreiche duale AGC-Struktur zur Verbesserung der Robustheit gegenüber impulsartigen Störsignalen für den Einsatz in CI-Systemen adaptiert und erstmals mit CI-Trägern objektiv und subjektiv evaluiert. Für die Durchführung der verschiedenen Sprachtests wurde eine in ihren Parameterwerten in weiten Bereichen frei programmierbare Labor-AGC entwickelt und systemtheoretisch beschrieben.
Eine statistische Auswertung der Ergebnisse der ersten Serie von Sprachtests mit Störgeräuschen zeigt, daß das Sprachverständnis der Implantatträger bei Verwendung einer Regelung unmittelbar nach dem Mikrophon des Sprachprozessors besonders bei im Pegel stark schwankender Sprache statistisch signifikant höher liegt als im Fall einer ungeregelten linearen Eingangsstufe. Bedenkt man, daß der mittlere Pegel von Sprache im täglichen Gebrauch von Situation zu Situation um bis zu 35 dB schwanken kann, so ist die Verwendung einer AGC als erste Verarbeitungsstufe eines Sprachprozessors, der im Alltag eingesetzt werden soll, angeraten. Die Testergebnisse zeigen weiters, daß das Kompressionsverhältnis der AGC i.a. den Parameter mit dem größten Einfluß auf das Sprachverständnis darstellt. Die exakten Werte von Ein? und Ausschwingzeit sind innerhalb gewisser Grenzen für das erzielbare Sprachverständnis weniger kritisch. Eine AGC mit einem Kompressionsverhältnis von 3:1, einer Einschwingzeit von 100 ms und einer Ausschwingzeit von 400 ms stellt sich für einen großen Eingangssignalpegelbereich als die erfolgreichste aller getesteten AGC-Konfigurationen dar.
In einer zweiten Serie von Sprachtests wurde erstmals die Effektivität einer dualen AGC-Struktur mit CI-Trägern evaluiert. Die Besonderheit dieser Struktur sind zwei Pegeldetektoren mit unterschiedlichen dynamischen Eigenschaften. Die Hauptaufgabe dieser AGC - wie auch die einer AGC mit Standardstruktur - besteht im Ausregeln der langsamen mittleren Pegelschwankungen des aufgenommen akustischen Signals. Während eine Standard-AGC aufgrund ihrer unveränderlichen Trägheit nicht in der Lage ist, kurze aber laute Signalspitzen (i.a. Störgeräusche) abzudämpfen, was von den CI- bzw. Hörgeräteträgern als unangenehm empfunden wird, kann eine duale AGC ihre Trägheit durch Umschalten auf den schnellen Detektor deutlich verringern und vermag somit Störspitzen auszuregeln. Die Sprachtestergebnisse demonstrieren eindrucksvoll die Überlegenheit der dualen Struktur gegenüber einer Standardstruktur bei Implantatträgern.
Insgesamt zeigen die Resultate der Studie, daß in Bezug auf Dynamikkompression vor allem zwei Faktoren das erreichbare Sprachverständnis beeinflussen. Einerseits ist dies die Lautstärke essentieller Sprachsignalelemente, und andererseits der Maskierungseffekt von Störgeräuschen. Leider stellen diese beiden Faktoren widersprüchliche Forderungen an die Parameterwerte einer AGC. Während beispielsweise in ruhiger Umgebung der Wunsch nach ausreichender Lautstärke aller wichtigen Sprachsignalkomponenten für einen großen Signalpegelbereich mit einem hohen Kompressionsverhältnis relativ leicht erfüllt werden kann, stellt ein hohes Kompressionsverhältnis in störgeräuscherfüllter Umgebung ein Problem dar, da die dadurch bedingte hohe Verstärkung der Störsignale einen gegenüber dem Eingang deutlich reduzierten Signal-Rausch-Abstand (SNR) am Ausgang der AGC bewirkt, der wiederum das Sprachverständis verschlechtert. Wie die Testergebnisse zeigen, ist eine geeignete Wahl der Parameterwerte einer AGC vor allem bei Störgeräuschen, die im täglichen Leben praktisch immer präsent sind, von besonderer Bedeutung.
Die Differenz zwischen Eingangs- und Ausgangs-SNR einer AGC kann als ein Maß für die Robustheit der AGC gegenüber Störgeräuschen angesehen werden. Hohe Robustheit ist durch eine kleine, geringe Robustheit durch eine große SNR-Differenz gekennzeichnet. Mit Hilfe eines im Rahmen dieser Studie entwickelten Simulationsalgorithmus wurde der Einfluß einzelner AGC-Parameter auf das Ausgangs-SNR bzw. auf die SNR-Differenz untersucht. Es zeigt sich, daß das Kompressionsverhältnis für typische Regelzeiten der AGC den deutlichsten Einfluß auf das Ausgangs-SNR ausübt. Die interessanteste Erkenntnis, die mit diesem Algorithmus gefunden wurde, ist, daß eine duale AGC nicht nur in der Lage ist, impulsartige Störer auszuregeln, sondern auch höhere SNRs am AGC-Ausgang gestattet als eine Standard-AGC mit identen statischen Eigenschaften, identer Einschwingzeit und identer Ausschwingzeit. Diese Eigenschaft dualer AGCs ist in der Literatur nicht beschrieben.
Basierend auf den Erkenntnissen der Studie mit den CI-Träger und den Simulationen werden die Anforderungen an eine AGC bzw. an den geregelten Verstärker der AGC innerhalb eines Sprachprozessors für Cochlea Implantate erarbeitet, sowie verschiedene Realisierungsmöglichkeiten (referenzspannungsgeregelte AGC, AGC mit digital geregeltem Verstärker, volldigitale AGC, analoge AGC, analoge, digital programmierbare AGC) vorgestellt und bezüglich ihrer Integrierbarkeit in bestehende Sprachprozessorkonzepte bewertet. Die zuletzt erwähnte analoge, digital programmierbare AGC ist für die Integration in einen sich in der Endphase der Entwicklung befindlichen weltweit klinisch verfügbaren HdO-Sprachprozessor vorgesehen.
Ein kurzer Ausblick zeigt zukünftige Fragestellungen zur Thematik der Dynamikkompression in Cochlea Implantat-Systemen auf, deren Beantwortung möglicherweise wieder zur Verbesserung des Sprachverständnisses und somit der Lebensqualität von CI-Trägern beiträgt. Weiter soll in diesem Abschnitt eine neue und für die Zukunft vielversprechende Signalverarbeitungsstufe für die CIS-Stimulationsstrategie vorgestellt werden.

Kurzfassung englisch:
Mild to profound hearing impairments can be found in more than 10 % of the population of the world. Especially severe to profound deafness is a major problem, as it on the one hand makes social contacts harder and on the other handicaps impaired persons in getting new information. Without intensive early special training deafness can lead to a low educational level and therefore to social problems in prelingually deafened or congenital deaf children.
The complex human auditory system consists of a chain of different structures for the transport of information. It begins in the outer ear and ends in the auditory cortex. In principle this chain can be damaged or completely cut off anywhere, however, in many cases a damage in the inner ear is the reason for a hearing impairment. Such a so called sensorineural hearing loss usually causes a massive frequency dependent increase of the hearing threshold and therefore a significant reduction of the dynamic range of the auditory system. In persons with a certain residual usable dynamic range some amount of hearing can be restored with conventional acoustic hearing aids which compress the dynamic range of the incoming acoustical signal in a way that the residual hearing can be used optimally. In persons with a severe to profound hearing loss successful acoustical stimulation of the auditory system is impossible. Usually in such persons rehabilitation is only successful with an inner ear prothesis (cochlear implant, CI).
Contrary to conventional hearing aids cochlear implants use the principle of direct electrical stimulation of the auditory nerve: A microphone worn close to the ear picks up the acoustical signals and passes them on to a speech processor which is either worn behind the ear (BTE) or somewhere on the body. In real time the processor calculates the appropriate stimulation information from these signals. A surgically inserted implant passes this information with current pulses via an electrode array on to the auditory nerve. Due to a certain amount of restored hearing, today cochlear implants allow a large number of people a re-integration into the "hearing world".
A critical point in signal processing in a cochlear implant system is dynamic compression of the acoustical signal. While the auditory system of a normal hearing person can process signals with dynamics of up to 120 dB, the usable dynamic range of electrical stimulation of the auditory nerve is hardly higher than 10 to 15 dB. In order to give implant users access to the largest portion possible of the 120 dB where the "acoustical life" takes place some kind of compression of the acoustical signal is necessary.
In modern speech processors compression is usually performed in two stages: While an instantaneous compression stage transforms the subjective electrical loudness growth function into an acoustical and therefore makes speech sound approximately natural for the CI-user, an automatic gain control (AGC) immediately after the microphone guarantees comfortable overall loudness of the acoustical signal. Although scientific research in the field of cochlear implants has begun more than 25 years ago, the question, if and how the many parameters of an AGC influence speech understanding of CI-users, and if and in which situations an AGC (the necessity of an AGC is discussed worldwide) is necessary in the daily use of a speech processor at all, cannot be answered by the literature as no study dealing with these problems was ever published. In the present work the influence of different AGC parameters such as compression ratio, attack time and release time on speech understanding was investigated with objective tests with cochlear implant users for the first time. Further, a dual AGC structure with increased robustness towards short and intense transient noise signals which was already successfully used in conventional hearing aids was adapted for use in cochlear implant systems and evaluated subjectively and objectively with CI-users for the first time. For these tests a lab based AGC that allows individual setting of various parameter values within wide ranges was developed and described theoretically.
A statistical analysis of the results of the first series of speech tests in noise shows that especially for speech variing largely in sound level the speech understanding of implant users is statistically significantly higher when using an AGC immediately after the microphone of the speech processor than in the case with only a linear input amplifier. Remembering the fact that the mean level of speech in everday situations may vary over a 35 dB range from one situation to the next, the use of an AGC as the first processing stage in a speech processor that is intended to be used in daily life is highly recommended. The speech test results further show that the compression ratio of the AGC is usually the parameter with the highest influence on speech understanding. The exact values of attack and release time are within certain limits less critical for the speech understanding. For a wide range of sound levels an AGC with a compression ratio of 3:1, an attack time of 100 ms and a release time of 400 ms shows to be the most successful of all the AGC configurations tested.
In a second series of speech tests the effectiveness of a dual AGC structure was evaluated with CI-users for the the first time. The special feature of that structure are two level detectors with different dynamic properties. The main purpose of that AGC - like that of an AGC with a standard structure - is compensation of the slow variations of the mean sound level of the acustical signal. While a standard AGC cannot - due to its fixed dynamic properties - attenuate short but loud noise transients which are unpleasant for a CI- or a hearing aid user, a dual AGC manages to compensate those noise signals by switching to the fast detector and therefore shortening its attack and release time. The speech test results demonstrate an impressive superiority of the dual structure over the standard structure in CI-users.
Overall the study results show that regarding dynamic compression two factors mainly determine the achievable speech understanding. On the one hand this is the loudness of important speech signal elements, on the other it is the masking effect of noise. Unfortunately these two factors call for conflicting AGC parameter values. While, for example, in a quiet environment the requirement of sufficient loudness of all important speech signal elements for a wide range of input levels can be met rather easily with a high compression ratio, high compression is a major problem in noisy environments as the resulting high amplification of noise signals causes a significantly reduced signal-to-noise ratio (SNR) at the AGC output compared to the input which reduces speech understanding. As the test results show, an appropriate setting of the parameter values of the AGC is critical especially in presence of background noise which is almost always present in everyday listening situations.
The difference between the input and the output SNR can be seen as a measure of robustness of an AGC towards noise. High robustness is indicated by a small, low robustness by a large SNR difference. The influence of individual AGC parameters on the AGC output SNR and the SNR difference, respectively, was investigated with a simulation algorithm developed within the course of this work. The compression ratio turned out to be the most influencing parameter on the output SNR for typical attack and release times. The most interesting finding of the algorithm is that a dual AGC cannot just compensate loud transient noise signals but also allows higher signal-to-noise ratios at the AGC output than a standard AGC with identical static properties, an identical attack time and an identical release time. This special property of dual AGCs is not described in the literature.
Based on the findings of the study with CI-users and the simulations the specifications of an AGC and the AGC amplifier in a speech processor for cochlear implants, respectively, are developed, and various possible AGC implementations (reference voltage controlled AGC, AGC with digitally controlled amplifier, fully digital AGC, analog AGC, analog digitally programmable AGC) are presented and evaluated regarding its possible integration into existing speech processor concepts. The latter mentioned analog digitally programmable AGC is already selected to be integrated into a new worldwide clinically available BTE speech processor that is currently in its final design phase.
A short look into the future addresses upcoming questions regarding dynamic compression in cochlear implant systems. Answering these questions will possibly further improve speech understanding and therefore the quality of life of CI-users. Additionally a new and for the future promising signal processing stage for the CIS stimulation strategy will be presented.