Die vorliegende Arbeit befasst sich mit einem Problembereich der Computerlinguistik: die maschinelle Spracherkennung. Dieses Thema passt mit dem Seminarthema "biologische Grundlagen der Sprache" in der Art zusammen, dass versucht wird, die biologischen Rezeptionsvorgänge beim Hören der Sprache im Computer zu simulieren.
Die auftretenden Schwierigkeiten mit den dazugehörenden Lösungsansätzen geben einen Einblick in die ungeheure Komplexität der für uns selbstverständlichen und meist unbewusst ablaufenden Vorgänge beim Hören und Erkennen der Sprache. Möglicherweise lassen einige dabei gewonnene Erkenntnisse begrenzte Rückschlüsse auf die Gehirnfunktion des Menschen beim Spracherkennen zu.
Die maschinelle Spracherkennung ist die Bezeichnung für den Prozess, mit Hilfe des Computers die von der natürlichen menschlichen Sprache verwendeten Worte zu erkennen und zu unterscheiden. Die Äußerungen eines Sprechers - also seine in akustische Lautfolge verschlüsselten Wörter -sollen vom Computer wieder zu den richtigen Worten zurückgeordnet werden. Dabei ist es unerheblich, ob der Computer die Bedeutung des Wortes versteht; wichtig ist allein, dass er sie erkennt.
Inhaltsverzeichnis
1. Einleitung
1.1 Definition
2. Spracherkennungshindernisse
2.1 Variabilität
2.2 Kontinuität
2.3 Kontextabhängigkeit
3. Systeme zur Schallaufnahme und Reduktion
3.1 Schalldigitalisierung
3.2 Datenkompression
4. Verschriftung und Orthographie
5. Systeme zur Bearbeitung der Samples
5.1 Mustererzeugung
5.2 Normalverteilung
5.3 Finite State Machine
5.4 Dynamische Programme
6. Grammatikalisch-semantische Analyse
7. Systeme zur automatischen Spracherkennung
7.1 Isolierte Worterkennung
7.2 Verbundene Worterkennung
7.3 Kontinuierliche Spracherkennung
8. Gesprächsprotokoll
9. Nachwort
Literaturverzeichnis
1. Einleitung
Die vorliegende Arbeit befaßt sich mit einem Problembereich der Computerlinguistik: die maschinelle Spracherkennung. Dieses Thema paßt mit dem Seminarthema "biologische Grundlagen der Sprache" in der Art zusammen, daß versucht wird, die biologischen Rezeptionsvorgänge beim Hören der Sprache im Computer zu simulieren; die auftretenden Schwierigkeiten mit den dazugehörenden Lösungsansätzen geben einen Einblick in die ungeheure Komplexität der für uns selbstverständlichen und meist unbewußt ablaufenden Vorgänge beim Hören und Erkennen der Sprache. Möglicherweise lassen einige dabei gewonnene Erkenntnisse begrenzte Rückschlüsse auf die Gehirnfunktion des Menschen beim Spracherkennen zu.
1.1 Definition
Die maschinelle Spracherkennung ist die Bezeichnung für den Prozeß, mit Hilfe des Computers die von der natürlichen menschlichen Sprache verwendeten Worte zu erkennen und zu unterscheiden. Die Äußerungen eines Sprechers - also seine in akustische Lautfolge verschlüsselten Wörter - sollen vom Computer wieder zu den richtigen Worten zurückgeordnet werden. Dabei ist es unerheblich, ob der Computer die Bedeutung des Wortes versteht; wichtig ist allein, daß er sie erkennt.1
2. Spracherkennungshindernisse
Eine typische Anwendungsmöglichkeit der maschinellen Spracherkennung wäre ein Computer, der ein Diktat aufnimmt. Für den Menschen mit seinen kognitiven Fähigkeiten ist dies ein leichtes - wenn er lesen und schreiben kann und das Diktat in einer ihm vertrauten Sprache stattfindet. Der Computer hat es ungleich schwerer. Worin besteht nun die Schwierigkeit beim Umgang des Computers mit der Sprache?
2.1 Variabilität
Die natürliche gesprochene Sprache ist der direkte Ausdruck des Denkens, ein extrem hoch verschlüsseltes Signal, welches der menschliche Geist erzeugt.2 Bei der phonetischen Umsetzung werden die Laute erzeugt, indem Luft aus der Lunge über verschiedene Hindernisse, Engstellen und Höhlungen gedrückt wird. Es gibt drei verschiedene Möglichkeiten, Laute zu erzeugen:
- Bei der stimmhaften Lautbildung versetzt der Sprecher die Luftsäule im Ansatzrohr in Schwingungen, indem er sie durch Öffnungs- und Schließbewegungen der Stimmlippen fast periodisch anregt; quasi- periodischer Schall entsteht.
- Ein glottaler Plosiv oder Verschlußlaut (auch frikativ oder geräuschhaft genannt) entsteht bei einer plötzlichen Öffnung der Stimmlippen, die zuvor Luft angestaut hatten. Dies führt zu einer Engebildung im Ansatzrohr durch nachströmende Luft, es bilden sich Turbulenzen.
- Die stimmlosen Laute werden ohne Einsatz der Stimmlippen produziert. Die Luft strömt an ihnen vorbei, ohne daß sie schwingen.3
Alle drei Möglichkeiten können sich überlagern. Durch die Bewegungen der Zunge, des Kiefers, der Lippen und des Zäpfchens wird die Luftsäule weiter verformt. Durch das Senken des Gaumensegels wird zeitweise noch der Nasenraum mit dem Mundraum gekoppelt. Dadurch ändert sich auch weiter das Schwingungsverhalten der Luftsäule. An den Lippen wird schließlich der Schall an die umgebende Luft übertragen.4 Das Gehör verhilft dem Sprecher zu einer Selbstkontrolle, die Abweichungen von der gewollten Lautbildung kompensieren kann.
An der Produktion des Lauts ist lebendes Gewebe beteiligt, und der Laut ist abhängig von den spezifischen physiognomischen Merkmalen des Sprechers. Die Stimme ist somit stark von der körperlichen Verfassung und dem emotionalen Zustand beeinflußt. Es wird auch dem geübtesten Sprecher nicht gelingen, eine Äußerung zweimal identisch zu produzieren. Die Dauer, Stärke, Tonhöhe und Klangfarbe des Lauts ändern sich ständig. Zusätzlich kommen beim Übergang von Lauten in die Wortbildung noch variable rhythmische Gliederungen und Intonationen hinzu. Von Bedeutung ist auch die variable Atmung des Sprechers auf die Lautbildung. Der Laut ist in seinem Charakter davon abhängig, wieviel Luftreserven in der Lunge vorhanden sind und wie stark sie diese hinausdrückt.
Dies alles gilt schon für einen einzigen Sprecher. Bei verschiedenen Sprechern einer Sprachgemeinschaft ist die Variabilität der Äußerungen immens hoch. Sie ist jedoch für den Menschen keine Störquelle, die das erkennen der Nachricht - der semantischen Information - erschwert, sondern vielmehr eine zusätzliche Informationsquelle.5 Aus der Sprechweise des Sprechers lassen sich - wie bereits angesprochen - emotionale Informationen erkennen, das "Timbre" seiner Stimme ist das persönliche, charakteristische Erkennungsmerkmal des Sprechers (u.a. sein Geschlecht und Alter) und zuletzt sein Akzent, seine spezifische Mundart, die Rückschlüsse auf seine Herkunft innerhalb des Sprachbereichs zulassen.6 Des weiteren drückt sich der gesundheitliche Zustand des Sprechers (Heiserkeit usw.) und besonders durch die Intonation die gewünschte Wirkung der Äußerung (Frage, Befehl usw.) aus.
Ein Computer, der im Grunde genommen nur wahr und falsch unterscheiden kann, hat mit der Laut- und Wortvariabilität enorme Probleme. Er kann einen gespeicherten Laut mit einem neu gesprochenen Laut vergleichen - und seine direkte Übereinstimmung als zutreffend oder nicht zutreffend charakterisieren. Doch ein solch reiner Vergleichsalgorithmus reicht wegen der Variabilität noch nicht aus, um dem Computer Sprache beizubringen.
2.2 Kontinuität
Die gesprochene Sprache ist ein linear ablaufender Prozess, der dem auditiven Rezipienten nicht automatisch - wie der niedergeschriebene Text - die Worttrennungen vorgibt. Das akustische Signal beruht auf einzelnen Phonemen und Wörtern, die der Sprecher verknüpft, doch bei der Umsetzung sind keine klaren Grenzen auszumachen. Imaginär hat der Hörer zwar eine Vorstellung von einzelnen ausgesprochenen Wörtern, doch das ist eine Illusion. Sätze sind, physikalisch gesehen, ein Schwall von Schall. Auch wenn Pausen stattfinden - also für einen Moment Stille herrscht -, ist dies nicht gleichbedeutend mit einer Worttrennung.7 Pausen sind vor sogenannten Stopkonsonanten meist mitten im Wort anzutreffen (z.B. au_toma_tischeS_pracher_kennung). Dies ist schon bedingt durch die Artikulation der Plosivlaute, in denen zuerst die Luft gestaut wird, also ein kompletter Verschluß der Stimmlippen stattfindet.
Ohne genaue Worttrennungen ist es für den Computer schwierig (aber auch für einen Menschen, der eine ihm völlig fremde Sprache hört), die einzelnen Wörter herauszupicken: "The sad poet remembers a long ago time" gleicht phonetisch fast dem semantisch völlig verschiedenem Satz "Thus add poetry members along a goat I'm".8
Ein menschlicher Rezipient hat zumeist den Bezug zu der gesamten sprachlichen Nachricht und entscheidet sich innerlich für die richtige Worttrennung mit dem korrekten semantischen Bezug (meistenfalls - sonst entstehen Mißverständnisse). Ein Computer, der nicht verstehen, sondern die Sprache anhand lautlicher Merkmale erkennen soll, hat diesen Bezug nicht.
2.3 Kontextabhängigkeit
Die Artikulation der Sprache kann man zum mechanischen Prozeß reduzieren, bei dem die Luft unter Druck ausströmt und geformt wird. Die einzelnen Komponenten des Artikulationsapparats müssen sich für jeden spezifischen Laut in eine bestimmte Stellung bewegen und diese Stellung ist auch wieder der Ausgangspunkt für die Bewegung zu der nächsten Stellung, also dem nächsten Laut. Ein und dasselbe Wort wird damit in verschiedenen Kontexten unterschiedlich artikuliert. Dies gilt am stärksten für die Übergänge zwischen den Wörtern. Die gesamte sprachliche Äußerung hat so einen Einfluß auf jeden segmentalen Teilbereich derselben. Einzelne Wörter sind rein lautlich daher schwer isoliert zu betrachten.9 Sollte der Computer fließende Sprache verstehen, so wird er mit dem Problem konfrontiert, daß die einzelnen Wörter ebenfalls innerhalb des Kontextes lautlich fluktuieren.
3. Systeme zur Schallaufnahme und Reduktion
Ein so plastisches Gebilde wie die Sprache, welche sich ständigen lautlichen Änderungen bei gleichbleibender semantischer Information unterzieht, kann der Computer nicht bearbeiten. Die phonetischen Äußerungen müssen also systematisiert und vereinheitlicht werden; am Ende darf nur noch das signifikante Merkmal übrigbleiben, welches die semantische Information der Lautfolge trägt.
Ein erster Schritt dazu ist die ohnehin notwendige Digitalisierung des Schalls.
3.1 Schalldigitalisierung
Das Ohr des Computers ist ein Mikrofon. Ähnlich wie beim Trommelfell des Menschen wird eine Membran in Schwingungen versetzt. Diese Bewegungen führen zu einem Wechselstrom in einer Spule, der im Idealfall dieselbe Schwingungscharakteristik der Schallwellen hat. Hierbei spielt natürlich die Güte des Mikrofons eine entscheidende Rolle.
Diese analogen Schwingungen müssen für den Computer digitalisiert werden, d.h., daß eine spezielle Folge von Binärzahlen repräsentativ für die ursprüngliche Schwingungscharakteristik wird.
Es gibt grundsätzlich zwei Methoden, die von diesen sogenannten Analog- Digitalwandlern angewendet werden: die Erstellung eines Zeit- oder Frequenzmusters.10
- Bei der Erstellung eines Zeitmusters wird die Amplitudestärke der Schwingung gemessen. Dieser Wert wird gerundet und einem der 256 möglichen Zustände, die ein Byte haben kann,11 proportional zugeordnet.
Dieses aus 8 Bits bestehende Sample wird gespeichert und der Vorgang periodisch und regelmäßig in bestimmten Zeitintervallen wiederholt. Eine Rate von 8000 Samples pro Sekunde ist der Normalfall bei der maschinellen Spracherkennung. Unter der Annahme, daß das durchschnittliche Wort 1/3 einer Sekunde lang ist, ergibt sich eine Rate von 2666 Samples pro Wort.12
Die Frequenz wird automatisch durch den linearen Ablauf der Aufzeichnung - der Abstand der Wiederholung einer Amplitude ist die Frequenz - gespeichert.
- Das Frequenzmuster wird erstellt, indem die Schwingungen in verschiedenen Frequenzbändern während eines Zeitintervalls gezählt werden. Dies kann alle 10 ms bei 16 Frequenzen geschehen. Auch hier wird der Wert - in diesem Falle die Anzahl der Schwingungen - gerundet und einem Binärwert des Bytes zugeordnet.
Bei der Musikdigitalisierung - beispielsweise auf eine Compact-Disc - kommt es auf eine naturgetreue, d.h. eine bis in die tiefsten und höchsten hörbaren Frequenzen speicherndes Verfahren an. Hierzu werden einfach die Zeitintervalle immens verkürzt und die möglichen Stufen auf ein 16-Bit- Muster erhöht. Damit erreicht man nun 65536 mögliche proportionale Stufen.
Bei der qualitativ schlechteren Sprachdigitalisierung geht zumeist ein Teil der hohen Frequenzen im Obertonbereich, die sogenannten Formanten, verloren. Sie sind für die Vokalunterscheidung, aber auch für die Klangfarbe mitverantwortlich, die den individuellen Sprecher auszeichnet. Dies geschieht bei jedem Digitalisierungsvorgang und ist der erste Schritt, der die Variabilität der Sprache eingrenzt. Daneben ist die ständige Rundung der Amplitude auf einen spezifischen Wert, der nur 256 Werte zuläßt, ebenfalls eine Kompensierung und Vereinheitlichung des Lautmusters.
Pro Wort werden 2666 Samples, also insgesamt 21328 Bits pro Wort verbraucht. Im Gegensatz dazu braucht die Schrift bei durchschnittlich 5 Buchstaben pro Wort 25 Bits.13 Dies darf nicht außer acht gelassen werden, wenn eine mögliche Anwendung der maschinellen Spracherkennung eine automatische Diktiermaschine sein könnte. So oder so muß die Datenmenge drastisch verringert werden - bei gleichbleibender semantischer Information - um den Speicher des Computers nicht zu überlasten.
3.2 Datenkompression
Die idealisierte Abbildung verdeutlicht den Digitalisierungsvorgang. Der originale Schwingungsverlauf der Amplitude kann eine unbegrenzte Anzahl von Wertigkeiten annehmen, dagegen zeigen die umkreisten Punkte den Wert der Samples, der nur begrenzt zwischen 0 und 255 liegen kann (also 256 Möglichkeiten) und der nicht genau übereinstimmt mit dem tatsächlichen Wert.14
Abbildung in dieser Leseprobe nicht enthalten
Es ist erkenntlich, daß die originale Wellenform einen sanften und weichen auf- und absteigenden Verlauf hat. Die Wertigkeiten steigen oder sinken niemals sprunghaft, bis z.B. der Verlauf von dem Tiefpunkt im Sample c hoch geht bis zum Sample i vergehen sechs Zwischenschritte, in denen die Charakteristik der Welle sich nicht auffällig ändert: Sie bleibt gleichförmig ansteigend. Diese Erkenntnis wird aus-genutzt, indem nur die jeweiligen Maxima und Minima einer Amplitude gespeichert werden, mit der Anzahl der dazwischen liegenden Samples. Zur späteren Bearbeitung und Untersuchung eines speziellen Abschnitts des gesampleten Lauts muß er allerdings erst wieder dekompressiert werden, d.h. der Vorgang findet in umgekehrter Reihenfolge statt. Auf diese Weise wird einmal die Datenmenge im Computer begrenzt und zum anderen wieder eine "Verwischung" der feinen Nuancen erreicht - also die Variabilität der Sprache eingegrenzt.
4. Verschriftung und Orthographie
Ein Schritt des weiteren Spracherkennens könnte über die Orthographie führen. Jeder, der schreibt, normt die Äußerung, hält sie frei von Variabilität und Emotionen (sieht man von dem Schriftbild ab) und führt klare Worttrennungen ein. Die Schrift erfüllt drei Anforderungen: Jede beliebige Äußerung kann mit ihr dargestellt werden, jede Wiederholung liefert dieselbe Abfolge von Zeichen, und unterschiedliche Äußerungen haben unterschiedliche Abfolgen. Dies ist eigentliche eine ideale Basis, um aufgrund von orthographischen Regeln eine automatische Spracherkennung zu realisieren.
In der deutschen Orthographie sind drei Ausprägungen anzutreffen. Sie ist eine Wortschrift, weil sie klanggleiche Worte differenziert (z.B. Wahl/Wal), eine Silbenschrift, weil sie Worttrennungen zwischen den Silben erlaubt, und zuletzt und grundlegend eine Lautschrift, die die einzelnen Phoneme umsetzt (das zeigt sich schon an dem fließenden Übergang von "Photo" zu "Foto").
Diese drei Ausprägungen werden im Deutschen recht willkürlich gehandhabt. Überhaupt ist die Orthographie recht inkonsistent; graphologische Einheiten wie z.B. "ch" werden phonetisch mehrfach belegt ("dach", "ich"). Viele Wendungen und Worte müssen einfach auswendig gelernt werden.
[...]
1 Vgl. Steger, Wiegand (1989). S. 586.
2 Vgl. Steger, Wiegand (189). S. 587.
3 Vgl. Bünting (1990). S. 62ff.
4 Vgl. Biefert (1985). S. 11.
5 Vgl. Habermann (1986). S. 89.
6 Um diese zusätzlichen Informationen auswerten zu können, braucht der Hörer bereits ein Minimum an Erfahrung. Dies führt ab von der ideelen Konstruktion eines Computers, der allein auf spezifische Laute reagiert, ihre Wortstruktur erkennt und wiedergibt. Die Arbeit konzentriert sich daher ausschließlich auf die semantische Information einer Äußerung. Vollständigkeitshalber möchte ich noch erwähnen, daß die produzierte Äußerung von dreidimensionalen, elastischen Schallwellen getragen wird. Sie sind von den Druckverhältnissen im Medium, der Geschwindigkeit der bewegten Teilchen und der Amplitude der Teilchenauslenkung bestimmt (vgl. Habermann (1986)). Unterschiedliche Luftdichten, die Ausdehnung und Form sowie die Schallreflektions- oder Mitschwingungsmöglichkeit des Raumes usw. prägen das Klangbild ebenfalls in einem gewissen Maße.
7 Vgl. Steger, Wiegand (1989). S. 587.
8 Beispiel aus Smith (1991). S. 52.
9 Vgl. Biefert (1985). S. 12.
10 Vgl. Smith (1991). S. 44.
11 1 Byte = 8 Bit = 8 x wahr oder falsch = 8 x zwei mögliche Zustände = 28 = 256 verschiedene mögliche Zustände.
12 Vgl. Smith (1991). a.a.O.
13 Mit 5 Bits sind alle im Deutschen verwendeten Buchstaben darstellbar 5 (2 =32), also 5 Buchstaben x 5 Bits = 25 Bit pro Wort (ohne Groß/Kleinschreibung).
14 Vgl. Smith (1991). S. 45. Die Zeichnung habe ich mit geringen Änderungen übernommen.
- Quote paper
- Tankred Stachelhaus (Author), 1994, Automatische Spracherkennung, Munich, GRIN Verlag, https://www.grin.com/document/100594
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.