Das primäre Ziel dieser Arbeit liegt darin, die Effektivität von automatisierter Spracherkennung mit Hilfe von DL zu untersuchen und dessen benutzungsfreundliche Implementierung in formularbasierte Prozesse im Internet. Letztendlich ist vor allem wichtig, dass dabei eine Verbesserung in der Handhabung von Formularen festgestellt wird. Für eine praktische Evaluierung eines passenden Konzepts wird ein ASR-System entwickelt, welches in einem Beispiel-Webformular zum Einsatz kommt. Als Szenario des Prototyps dient dabei ein Formular zur Objekterfassung durch einen Immobilienmakler.
Der erfolgreiche Einsatz von ASR in Online-Formularen kann sowohl für Anwender als auch für Unternehmen Vorteile mit sich bringen. Nicht nur in der Praxis kann solch eine Lösung von großer Bedeutung sein, sondern auch für die Forschung wäre es von großem Interesse, wenn die Effizienz der Verwendung von Spracherkennung im Internet verbessert wird.
In Kapitel 2 werden zunächst einmal theoretische Grundlagen zu den Themen künstliche Intelligenz (KI), DL und konkretisiert ASR durch Einsatz von DL erläutert. Im danach folgenden Kapitel wird zunächst untersucht, auf welche Weise Spracherkennung als Schnittstelle zwischen Anwendern und formularbasierten Prozessen aktuell eingesetzt werden kann. Anschließend werden detailliert bestehende Lösungswege hinsichtlich der Verwendung von ASR mit DL verglichen. Anhand dessen wird dann eine Entscheidung für ein bestimmtes Verfahrensmodell getroffen. Nachdem die Entscheidungen für passende Technologien, Architekturen, Frameworks und Implementierungsansätze gefällt wurden, erfolgt im nächsten Kapitel eine detaillierte Beschreibung der zum Einsatz kommenden ASR-Architektur. Außerdem erfolgt eine Beurteilung der gewählten konkreten Umsetzungsweise der Modellstruktur, wobei der Fokus auf Vor- und Nachteilen gegenüber Alternativen liegt.
In Kapitel 5 wird dann die Umsetzung der Theorie in die Praxis beschrieben. Das nächste Kapitel widmet sich dann einer abschließenden Auswertung der praktischen Umsetzung. Dabei wird auf Limitationen der gewählten Lösung eingegangen und welche nachfolgenden Arbeiten zur Verbesserung erledigt werden müssen. Im letzten Kapitel werden die wesentlichen Inhalte der Arbeit zusammengefasst. Anschließend erfolgt eine Auswertung der Ergebnisse in Form eines Fazits und den Abschluss bildet ein kurzer Ausblick hinsichtlich weiterer Entwicklung von Interaktionsmöglichkeiten zwischen Mensch und Maschine.
Inhaltsverzeichnis
- 1 Einleitung
- 1.1 Ausgangslage und Motivation
- 1.2 Ziel und Forschungsfrage
- 1.3 Überblick über die Arbeit
- 2 Theoretische Grundlagen
- 2.1 Künstliche Intelligenz
- 2.2 Deep Learning (DL)
- 2.2.1 Deep Network
- 2.2.2 Klassen
- 2.2.3 Methodik
- 2.3 Automatic Speech Recognition (ASR) mit DL
- 2.3.1 Methodik
- 2.3.2 DL-Architekturen
- 2.3.3 Systemkomponenten
- 2.3.4 Systemarchitekturen
- 3 Ermittlung geeigneter Lösungsstrategien
- 3.1 Spracherkennung in Online-Formularen
- 3.1.1 Aktueller Stand
- 3.1.2 Implementierungsansätze
- 3.1.3 Vergleich von Implementierungsansätzen
- 3.1.4 Auswahl eines Implementierungsansatzes
- 3.2 ASR mit DL
- 3.2.1 Bestehende Lösungsstrategien
- 3.2.2 Vergleich von Lösungsstrategien
- 3.2.3 Auswahl einer Lösungsstrategie
- 3.1 Spracherkennung in Online-Formularen
- 4 Architektur des gewählten ASR-Systems
- 4.1 Beschreibung der Architektur
- 4.1.1 Akustikmodell
- 4.1.2 Decoder & Sprachmodell
- 4.2 Auswahl der ASR-Hyperparameter
- 4.2.1 Merkmalsextraktion
- 4.2.2 Akustikmodell
- 4.2.3 Decoder & Sprachmodell
- 4.3 Vor- und Nachteile
- 4.1 Beschreibung der Architektur
- 5 Methodik
- 5.1 Feldselektive Sprachformularbearbeitung
- 5.2 Web Speech API
- 5.3 DeepSpeech ASR-Modell
- 5.3.1 Datensammlung
- 5.3.2 Datenvorbereitung
- 5.3.3 Datenerweiterung
- 5.3.4 Training
- 5.3.5 Evaluierung des Modells
- 5.4 Internes ASR-System
- 5.4.1 ASR-Server
- 5.4.2 Web-Client
- 5.5 Evaluierung der feldselektiven Sprachformularbearbeitung
- 6 Ergebnisse und Diskussion
- 6.1 Implikationen
- 6.2 Limitationen
- 6.3 Zukünftige Arbeiten
- 7 Schlussfolgerung
- 7.1 Zusammenfassung der Arbeit
- 7.2 Fazit und Ausblick
- 8 Verzeichnisse
- 8.1 Abkürzungsverzeichnis
- 8.2 Abbildungsverzeichnis
- 8.3 Formelverzeichnis
- 8.4 Codeverzeichnis
- 8.5 Tabellenverzeichnis
- 8.6 Quellenverzeichnis
Zielsetzung und Themenschwerpunkte
Diese Bachelorarbeit beschäftigt sich mit der Erforschung und Implementierung von automatisierter Spracherkennung mittels Deep Learning im Kontext von formularbasierten Prozessen im Web. Ziel ist es, die Effektivität dieser Technologie zur Steigerung der Benutzerfreundlichkeit und Effizienz bei der Formularbearbeitung zu analysieren. Die Arbeit konzentriert sich dabei auf folgende Themenschwerpunkte:- Die Nutzung von Deep Learning für die automatisierte Spracherkennung (ASR)
- Die Integration von ASR in webbasierte Formulare
- Die Auswahl und Evaluierung geeigneter Lösungsstrategien
- Die Architektur und Funktionsweise eines ASR-Systems
- Die Methodik der feldselektiven Sprachformularbearbeitung
Zusammenfassung der Kapitel
- Kapitel 1: Einleitung Dieses Kapitel stellt die Ausgangslage und Motivation der Arbeit vor. Es werden die Herausforderungen beim Ausfüllen von Formularen im Web beleuchtet und die Vorteile von Spracherkennung als Lösung dargestellt.
- Kapitel 2: Theoretische Grundlagen Dieses Kapitel legt die theoretischen Grundlagen für die Arbeit. Es werden die Konzepte der Künstlichen Intelligenz, des Deep Learning (DL) und der automatisierten Spracherkennung (ASR) mit DL erklärt.
- Kapitel 3: Ermittlung geeigneter Lösungsstrategien Dieses Kapitel befasst sich mit der Recherche und Auswahl von Lösungsstrategien für die Integration von ASR in Online-Formulare. Es werden verschiedene Ansätze und deren Vor- und Nachteile verglichen.
- Kapitel 4: Architektur des gewählten ASR-Systems Dieses Kapitel beschreibt die Architektur des gewählten ASR-Systems, einschließlich Akustikmodell, Decoder & Sprachmodell und der Auswahl der ASR-Hyperparameter.
- Kapitel 5: Methodik Dieses Kapitel beschreibt die Methodik der feldselektiven Sprachformularbearbeitung, einschließlich der Nutzung der Web Speech API und des DeepSpeech ASR-Modells. Es werden die Schritte zur Datensammlung, Datenvorbereitung, Datenerweiterung, dem Training und der Evaluierung des Modells erläutert.
- Kapitel 6: Ergebnisse und Diskussion Dieses Kapitel präsentiert die Ergebnisse der Evaluierung der feldselektiven Sprachformularbearbeitung und diskutiert deren Implikationen, Limitationen und mögliche zukünftige Forschungsarbeiten.
Schlüsselwörter
Die Arbeit widmet sich den Themen der automatisierten Spracherkennung, Deep Learning, formularbasierten Prozessen, Webanwendungen, Benutzerschnittstellen, Effizienzsteigerung und Benutzerfreundlichkeit. Die Integration von Deep Learning in Webanwendungen und die Nutzung von Spracherkennungstechnologien für die Verbesserung von Online-Formularen stehen im Mittelpunkt der Forschung.- Quote paper
- Paul Hornig (Author), 2023, Künstliche Intelligenz im Dialog. Die Evolution von Webformularen durch automatisierte Spracherkennung, Munich, GRIN Verlag, https://www.grin.com/document/1401153