Um die Problematik der Spracherkennung besser zu überblicken und ihre
Grundlagen zu verstehen, wird die vorliegende Arbeit einen Überblick über die
bisherige Entwicklung der Spracherkennung, deren Anwendungsgebiete und
den derzeitigen Stand der wissenschaftlichen Forschung liefern. Dabei werden
die theoretischen Grundlagen erläutert und die Leistungsfähigkeit aktueller
Spracherkennungssysteme betrachtet. Außerdem soll ein Blick auf sich gegenwärtig in der Entwicklung befindliche Systeme geworfen werden. Im Interesse
hoher Aktualität wird sich die Arbeit verstärkt auf Onlinequellen berufen.
Inhaltsverzeichnis
1. Einleitung
2. Überblick
2.1 Historische Entwicklung
2.2 Aktueller Stand
2.3 Anwendungsgebiete
3. Problemstellungen
3.1 Technische Problemstellungen
3.2 Linguistische Problemstellungen
4. Realisierung
4.1 Mustervergleich mit Referenzwörtern
4.2 Hidden-Markov-Models
4.3 Künstliche Neuronale Netze
4.4 Sprachmodell
5. Ausblick
Bibliographie
1.Einleitung
Die gesprochene Sprache ist für den Menschen die wichtigste Art der Kommunikation. Auf keine andere Art und Weise lassen sich konkrete Inhalte so schnell vermitteln. Da die Bedeutung der elektronischen Datenverarbeitung inzwischen von so überragender Bedeutung ist, wäre es wünschenswert auch mit Maschinen so einfach und präzise mündlich kommunizieren zu können.
Die vorliegende Arbeit befasst sich mit der automatischen Erkennung menschlicher Sprache und deren Verarbeitung durch Maschinen. Die Sprach-erkennung ist ein Teilgebiet der Computerlinguistik. Diese wiederum bewegt sich im wissenschaftlichen Bereich zwischen Informatik und Linguistik. Der Begriff „Computerlinguistik“ leitet sich vom englischen „computational linguistics“ ab. Die Anfänge der Computerlinguistik liegen bereits in den 50er Jahren des vorigen Jahrhunderts. Mittlerweile hat sich diese Disziplin zu einem komplexen und anerkannten Forschungsgebiet etabliert.
Viele Menschen sind bereits mit Spracherkennungssystemen konfrontiert wurden, sei es beim Telebanking oder bei der telefonischen Kartenvor-bestellung für einen Kinofilm. Diese Art der Informationsaufnahme ist für den Anwender komfortabel und einfach zu handhaben. Diejenigen, die bereits Erfahrungen mit Spracherkennungssystemen machen konnten haben jedoch sicherlich bemerkt, dass diese Art der mündlichen Kommunikation noch nicht mit der Unkompliziertheit zwischenmenschlicher Kommunikation zu vergleichen ist. Die Gründe dafür sind in dem gewaltigen technischen Aufwand, der zur Spracherkennung notwendig ist und in den zahlreichen linguistischen Problemstellungen, welche die menschliche Sprache umfasst zu finden. Das Innovationstempo auf diesem Gebiet ist jedoch sehr hoch und es werden in nächster Zeit sicherlich noch einige Schwierigkeiten gemeistert werden.
Um die Problematik der Spracherkennung besser zu überblicken und ihre Grundlagen zu verstehen, wird die vorliegende Arbeit einen Überblick über die bisherige Entwicklung der Spracherkennung, deren Anwendungsgebiete und den derzeitigen Stand der wissenschaftlichen Forschung liefern. Dabei werden die theoretischen Grundlagen erläutert und die Leistungsfähigkeit aktueller Spracherkennungssysteme betrachtet. Außerdem soll ein Blick auf sich gegen-wärtig in der Entwicklung befindliche Systeme geworfen werden. Im Interesse hoher Aktualität wird sich die Arbeit verstärkt auf Onlinequellen berufen.
2.Überblick
2.1 Historische Entwicklung
Die Vorboten der Computerlinguistik sind in den ersten Überlegungen zur prinzipiellen Möglichkeit der Informationsverarbeitung durch Maschinen in den 30er und 40er Jahren des 20.Jahrhunderts zu sehen. Die Grundlage für die Sprachverarbeitung bot die stochastische Informationstheorie. Diese befasst sich mit der Rekonstruktion gestörter Sprachsignale mittels sprachspezifischer Symbolwahrscheinlichkeiten.[1]
In den 1960er Jahren begann die intensive Forschung an Systemen zur Spracherkennung. Aufgrund des damals noch zu erarbeitetenden Wissens und der noch nicht so fortschrittlichen Computertechnologie konnten die ersten Systeme noch keine großen Erfolge verbuchen. Dennoch gelang es, einige wenige Wörter maschinell zu erfassen. Erst in den 1980er Jahren wurde die Forschung entscheidende Schritte vorangetrieben. Zum einen wurden die Computer immer leistungsfähiger, andererseits kam es zu bedeutenden Weiter-entwicklungen der theoretischen Grundlagen. Das 1986 von IBM vorgestellte TANGORA 4 System für Englisch war bereits in der Lage Homophone zu differenzieren, indem es den Kontext überprüfte. Die Grundlage dafür bilden so genannte Trigramme. Diese geben Auskunft über die statistische Häufigkeit bestimmter Wortkombinationen. Zwei Jahre später wurde eine Version zur Erkennung von deutscher Sprache entwickelt und 1991 auf der CeBIT vorgestellt.[2] Das System war bereits in der Lage bis zu 30000 deutsche Wörter zu erkennen.
Das erste System, dass aufgrund seines Preises von knapp 1000$ auch für private Anwendungen interessant war wurde 1994 unter dem Namen „IBM VoiceType Diktiersystem“ vorgestellt.[3] Zwei Jahr später erschien eine Weiterentwicklung, die erstmals auf einem Personalcomputer ohne spezielle Hardware funktionierte. Mittlerweile sind Spracherkennungssysteme auch von anderen Anbietern wie z.B. der amerikanischen Firma Dragon Systems oder der Philipstochter Philips Dictation erhältlich. Die 2004 von IBM getroffene Entscheidung, teile der Spracherkennungssoftware als Open Source freizugeben, sprich deren Quellcodes zu veröffentlichen, wird erheblich dazu beitragen die Software in naher Zukunft noch leistungsfähiger zu machen.
2.2 Aktueller Stand
Aktuelle Spracherkennungssysteme verfügen über sehr große Wortschätze und funktionieren bereits recht akzeptabel. Je nach Anwendungsgebiet kann zwischen verschiedenen Systemen unterschieden werden. So existieren Systeme, die auf diskret gesprochene Wörter spezialisiert sind, im Gegensatz dazu gibt es Systeme, die kontinuierlich gesprochene Sprache erfassen. Neuere Systeme sind auf kontinuierlich gesprochene Sprache ausgelegt, um deren Handhabung zu vereinfachen. Weiterhin sind so genannte sprecher-abhängige Systeme auf einen bestimmten Sprecher spezialisiert, während sprecherunabhängige Systeme von beliebigen Personen genutzt werden können. Letztere bieten den Vorteil, dass es nicht notwendig ist, das Spracherkennungssystem zu trainieren. Jeder Nutzer kann sofort mit dem System arbeiten. Allerdings ist der Wortschatz sprecherunabhängiger Systeme relativ begrenzt. Sprecherabhängige Systeme müssen vom Anwender konfiguriert werden, die Systeme werden also am Anfang trainiert, um an spezifische Eigenheiten des Sprechers gewöhnt zu werden. Der Wortschatz dieser Systeme ist sehr groß, außerdem kann ein Sprecher eines gut auf ihn abgestimmten Systems recht flüssig und mit normaler Deutlichkeit sprechen.
Die Erkennungsquote von sprecherunabhängigen Systemen mit geringem Wortschatz erreicht teilweise beinahe 100%, während sie bei Systemen mit größerem Wortschatz darunter liegt. Bei Versuchen mit Spracherkennungs-systemen zur Erfassung von Texten im niederländischen Landtag wurde deutlich, dass selbst eine Erkennungsquote von 95% nicht alltagstauglich ist, da der anschließende Korrekturaufwand noch zu hoch ist.[4]
Moderne Systeme sind bei Unsicherheiten bereits in der Lage Rückfragen zu stellen, dass bedeutet den Anwender zu fragen, ob er ein bestimmtes Wort gesagt hat. Dieser kann dann seine Aussage bestätigen oder im Bedarfsfall korrigieren. Im Gegensatz zu älteren Spracherkennungssystemen spielt auch der Einfluss von Nebengeräuschen inzwischen eine geringere Rolle, da diese digital herausgefiltert werden können.
2.3 Anwendungsgebiete
Spracherkennungssysteme lassen sich in vielfältiger Weise Anwenden. Eine Hauptanwendung ist die Texterfassung. So kann mit moderner Spracher-kennungssoftware beispielsweise ein diktierter Text in ein elektronisches Dokument gewandelt werden. Diese Anwendung erleichtert die Erstellung von Textdateien und richtet sich an private Anwender sowie Nutzer im Büro, die dadurch keine Schreibkraft benötigen. Der PC wird direkt zum Diktiergerät, der Text kann anschließend auf gewohnte Weise formatiert und eventuell korrigiert werden. Einige Spracherkennungssysteme bieten die Möglichkeit, die gemachten Korrekturen mit dem Sprachprofil des Sprechers abzugleichen und steigern dadurch ihre Erkennung. (z.B.: ASKA SmartNet)[5]
Des Weiteren ermöglichen Spracherkennungssysteme die Steuerung von Applikationen und Systemen. Dadurch vereinfacht sich die Handhabung von Computern und Maschinen. Im Consumerbereich wären Mobiltelefone zu nennen auf deren Telefonbuch mit Sprachbefehlen zugegriffen werden kann. Ein bedeutendes Anwendungsgebiet ist die Möglichkeit behinderten Menschen die Nutzung und Bedienung von Computern bzw. Geräten zu erleichtern. Der Schweizer Kanton Genf führte 2003 ein Spracherkennungssysten für elektro-nisches Wählen ein, das mit Hilfe von Hewlett Packard und WISeKey entwickelt wurde.[6] Dadurch können blinde Menschen und Analphabeten ohne fremde Hilfe an Wahlen teilnehmen. Moderne Sprachsteuerungssysteme lassen sich auf handelsüblichen Personalcomputern installieren un]d ermöglichen die verbale Steuerung vielfältiger Programme. (z.B.: Philips Speech SDK)[7] Besonders im medizinischen sowie im juristischen Bereich haben Spracherkennungssysteme in den letzten Jahren erfolgreich Einzug gehalten.
3. Problemstellungen
3.1 Technische Probleme
Ein Spracherkennungssystem kann Sprache nur erkennen, indem es das Eingangssignal mit gespeicherten Daten vergleicht und bei hoher Übereinstimmung der Merkmale die Entscheidung trifft, dass die Wörter identisch sind. Dafür muss es jedoch über einen ausreichend großen Wortschatz verfügen. Mittlerweile stellt Speicherplatz jedoch kein Problem mehr dar, so dass moderne Spracherkennungssysteme über gewaltige Wortschätze verfügen können. Diese Wortschätze umfassen neben den Wortstämmen auch Variationen der Wörter (z.B. flektierte Verben), da ein Spracherkennungssystem nur lautliche Eigenschaften erkennt und kein grammatisches Wissen besitzt. Das Problem besteht jedoch in dem enormen Datenfluss, den es möglichst in Echtzeit zu verarbeiten gilt. Selbst modernste Computer wären damit überfordert, ein Eingangssignal ständig mit mehreren zehntausend gespeicherten Mustern zu vergleichen. Aus diesem Grund ist es notwendig den Datenfluss erheblich zu reduzieren. Das geschieht, indem das digitalisierte Eingangssignal in diskrete Einheiten von ca. 10ms Dauer zerlegt wird. Durch Fouriertransformation lassen sich die spektralen Eigenschaften dieser Einheiten bestimmen und in einem Merkmalsvektor speichern. Dieser beinhaltet die Intensität von ca.20 sprachrelevanten Frequenzen.[8] Da der Mensch Frequenzunterschiede bei niedrigen Frequenzen viel besser unterscheiden kann als bei hohen Frequenzen, erfolgt eine gehörrichtige Frequenzskalierung.[9] Das bedeutet, dass die Frequenzabstände der in den Merkmalsvektoren gespeicherten Frequenzen nicht gleich sind. Anschließend wird der Merkmalsvektor durch einen ihm möglicht ähnlichen Referenzvektor ersetzt. Dadurch wird der Datenfluss von ca.30000Byte pro Sekunde auf ca.100 Byte pro Sekunde reduziert.[10] Momentan liegt das Hauptaugenmerk der Forschung jedoch auf der Software. Im Hardwarebereich sind die Voraussetzungen für eine optimale Spracherkennung mittlerweile gegeben.
3.2 Linguistische Probleme
Das Hauptproblem eines Spracherkennungssystems ist, dass es über keinerlei Weltwissen verfügt. Daher kann es beispielsweise Homophone (gleich klingen-de Wörter mit unterschiedlicher Bedeutung z.B.: das / dass) nicht durch ein vorhandenes Kontextwissen, sondern nur durch Statistiken erkennen. Im deutschen kommt die Problematik der Groß- und Kleinschreibung hinzu.
[...]
[1] Menzel 2004, S.16
[2] Ihm 2005
[3] Wales 2005
[4] Wales 2005
[5] www.aska.com/produkte/digitales-diktat.html
[6] PR Newswire 2003
[7] www.speechrecognition.philips.com/index.asp?id=660
[8] Warth 1999
[9] Berger 1998
[10] Ihm 2005
- Quote paper
- Tino Mager (Author), 2005, Computerlinguistik: Grundprinzipien der Spracherkennung, Munich, GRIN Verlag, https://www.grin.com/document/140379
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.