In dieser Arbeit soll eine Spracherkennungs- und Sprachsteuerungssoftware für eine Business-Intelligence-Anwendung konzipiert und als Prototyp umgesetzt werden. Die Software soll durch eine natürliche Sprache die Interaktion mit einer Business-Intelligence-Anwendung ermöglichen. Dabei soll die Business-Intelligence-Anwendung Sprachbefehle erkennen sowie interpretieren und im Anschluss anhand einer passenden Visualisierung entsprechende Auswertungen dynamisch darstellen.
Folgende Anforderungen sollte die Prototyp-Software dabei erfüllen:
• Natürliche Spracherkennung: Die Software soll natürlich gesprochene Sätze erkennen. Der Sprecher muss dabei keine künstlichen Pausen zwischen den einzelnen Wörtern einlegen.
• Einfache Sprachsteuerung: Die Navigation innerhalb der Business-Intelligence-Anwendung soll intuitiv mit Sprache ermöglicht werden.
• Intelligente Visualisierung: Je nach Fragestellung soll eine passende Visualisierung ausgewählt und automatisch dargestellt werden, womit eine leichte und fehlerfreie Interpretation der Daten ermöglicht wird.
Nach der Einleitung mit Zielsetzung und Abgrenzung werden in Kapitel 2 die theoretischen Grundlagen erörtert. Dazu werden zunächst die menschliche Sprache, die Spracherkennung und die Mensch-Computer-Interaktion (MCI) vorgestellt. Danach werden virtuelle Assistenten untersucht und auch die Begriffe Usability sowie Responsive Webdesign erläutert. Das Kapitel zu den theoretischen Grundlagen wird mit der Vorstellung von den Möglichkeiten, die sich durch HTML5 und CSS3 sowie JavaScript und die Web Speech API ergeben, abgeschlossen.
In Kapitel 3 werden die unterschiedlichen Methoden für eine optimale Visualisierung von Daten untersucht. Im Anschluss wird in Kapitel 4 zuerst der Begriff Business Intelligence allgemein definiert und anschließend die Business-Intelligence-Plattform Qlik Sense näher vorgestellt. In Kapitel 5 findet die Konzeption der Sprachsteuerungssoftware für die Business-Intelligence-Anwendung statt. Danach werden im Kapitel 6 die Ergebnisse aus der Realisierung der Software abgebildet. Abschließend finden im letzten Kapitel eine kritische Würdigung sowie ein Ausblick auf weitere Einsatzmöglichkeiten statt.
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
Abkürzungsverzeichnis
1 Einleitung
1.1 Motivation
1.2 Zielsetzung dieser Arbeit
1.3 Abgrenzung
1.4 Aufbau der Arbeit
2 Theoretische Grundlagen
2.1 Menschliche Sprache
2.2 Spracherkennung
2.2.1 Spracherkennung mit Mustervergleich
2.2.2 Statistische Spracherkennung
2.2.3 Künstliche neuronale Netze
2.3 Mensch-Computer-Interaktion
2.4 Virtuelle Assistenten
2.5 Usability und Responsive Webdesign
2.6 HTML5 und CSS3
2.7 JavaScript und die Web Speech API
3 Visualisierung von Daten
4 Business-Intelligence-Plattform Qlik Sense
4.1 Allgemeine Informationen
4.2 In-Memory-Technologie und das assoziative Modell
4.3 Datenbeschaffung und Datenmodellierung
4.4 Übersicht Qlik Engine API und Capability APIs
5 Konzeption der Sprachsteuerungssoftware
5.1 Allgemeine Informationen
5.2 Funktionale und nichtfunktionale Anforderungen
5.3 Anbindung der Spracherkennungskomponenten
5.4 Prüfung der Genauigkeit des Web Speech API
5.5 Anbindung der Qlik-Sense-Applikation
5.6 Ermittlung und Darstellung der Chart-Objekte
5.7 Gestaltung der Webanwendung
5.8 Architektur der Webanwendung
6 Realisierung der Sprachsteuerungssoftware
6.1 Anbindung der APIs
6.2 Ermittlung und Darstellung der Chart-Objekte
6.3 Layout der Webanwendung
6.4 Bewertung der Webanwendung
7 Kritische Würdigung und Ausblick
Anhang
Literaturverzeichnis
Vorwort
Die vorliegende Masterthesis bedeutete für mich eine große Herausforderung. Die langen Nächte der Forschungsarbeit und Entwicklungstätigkeiten waren anstrengend aber auch zugleich spannend. An dieser Stelle möchte ich mich bei allen bedanken, die mich bei der Erstellung dieser Abhandlung unterstützt haben.
Mein erster Dank gilt meiner Familie: Meiner Ehefrau, Pinar, für ihre unendliche und bedingungslose Liebe sowie der Ermutigungen. Meine beiden Töchter Melissa und Ela für ihre süße Liebe und Verständnis. Ihr seid die Quelle meiner Freude und Motivation.
Danken möchte ich auch allen Verwandten und Freunden, die mich die komplette Zeit moralisch unterstützten.
Ein besonderer Dank geht auch an Herrn Dr. Matthias Riege für seine Betreuung und hilfreichen Anregungen während der gesamten Zeit.
Altingen, 10. März 2018 Mehmet-Ali Gengsoy
Abbildungsverzeichnis
Abbildung 1: Die ,Shoebox’ mit William Dersch
Abbildung 2: Anzahl der Nutzer digitaler Assistenten weltweit von 2015 bis 2021
Abbildung 3: Qlik-Sense-Demoseite
Abbildung 4: Spektrogramm für „Hallo, mein Name ist Mehmet Gencsoy“ ..
Abbildung 5: Vorgang bei der statistischen Spracherkennung
Abbildung 6: Beispiel neuronales Netz
Abbildung 7: Umsatz mit virtuellen digitalen Assistenten weltweit von 2015 bis 2021
Abbildung 8: Beispiele für Responsive Design
Abbildung 9: HTML5 und sein Umfeld
Abbildung 10: Setup Spracherkennung mit Web Speech API
Abbildung 11: Visualisierungsobjekte für einen Vergleich
Abbildung 12: The Graphic Continuum
Abbildung 13: Qualitative Chart Chooser 3.0
Abbildung 14: Chart Chooser
Abbildung 15: Qlik-Sense-Desktop-Hub
Abbildung 16: Executive-Dashboard-Voice-Applikation
Abbildung 17: Beispiel für das assoziative Model von Qlik
Abbildung 18: Qlik-Sense-Dateneditor
Abbildung 19: Übersicht Datenmodell mit Qlik Sense
Abbildung 20: Beispiel Balkendiagramm mit der Visualization API
Abbildung 21: Beispielzugriff auf eine Qlik-Sense-Applikation mit Root API
Abbildung 22: Mockup der Webanwendung nach erstem Aufruf
Abbildung 23: Mockup der Webanwendung nach einer Suchanfrage
Abbildung 24: Architektur der Webanwendung
Abbildung 25: Auszüge aus der Voice.html
Abbildung 26: Auszüge aus der Voice.js
Abbildung 27: Auszug aus einer Mapping-Liste
Abbildung 28: Anwendung der Tag-Funktion
Abbildung 29: Ermittlung der Felderliste mit Tag-Informationen
Abbildung 30: Auszug aus der Funktion ,processTerms‘
Abbildung 31: Auszüge aus der Funktion ,nlpViz‘
Abbildung 32: Auszug aus der ,createViz‘-Funktion
Abbildung 33: Aufbau der Webanwendung nach dem Aufruf
Abbildung 34: Navigation
Abbildung 35: Darstellung KPI-Objekt
Abbildung 36: Darstellung Balkendiagramm
Abbildung 37: Darstellung Kuchendiagramm
Tabellenverzeichnis
Tabelle 1: Auflistung und Beschreibung der Capability APIs
Tabelle 2: Funktionale Anforderungen
Tabelle 3: Nichtfunktionale Anforderungen
Tabelle 4: Ergebnis der Spracherkennungstests mit der Web Speech API .
Tabelle 5: Regeln für die Ermittlung der Chart-Objekte
Tabelle 6: Prüfung der funktionalen Anforderungen
Tabelle 7: Prüfung der nichtfunktionalen Anforderungen
Tabelle 8: Testprotokoll Wörter
Tabelle 9: Testprotokoll Sätze
Tabelle 10: Liste der Sätze
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einleitung
1.1 Motivation
„Sprache ist der Schlüssel zur Welt.“
(Wilhelm von Humboldt)
Dieses Zitat von Wilhelm von Humboldt, Schriftsteller und Gründer der Universität in Berlin, zeigt die Wichtigkeit von Sprache auf. Menschen kommunizieren und tauschen sich hauptsächlich mit ihrer Hilfe untereinander aus. Dennoch findet Sprache erst nach der Tastatur und der Maus sowie den Touchscreens und Gesten Einzug in die Kommunikation mit Computern.
Wird die Entwicklung der Ein- und Ausgabemedien zur Kommunikation mit Maschinen bzw. Computern betrachtet, so lässt sich erkennen, dass die Durchdringung einer neuen Technologie mehrere Jahre oder sogar Jahrzehnte benötigt. Während die ersten Rechenmaschinen im 18. Jahrhundert mittels Lochkarten gesteuert wurden, konnte 1948 erstmals eine elektrische Tastatur zur schnelleren und besseren Datenerfassung beitragen. Doch erst mit einer Erfindung des Massachusetts Institute of Technology (MIT) der Technischen Hochschule und Universität in Cambridge, USA, aus dem Jahr 1964 konnte sich die Tastatur durchsetzen. Das MIT kombinierte das Eingabegerät Tastatur mit einem Ausgabegerät, dem Röhrenbildschirm. Dadurch ließen sich die Eingaben direkt prüfen und verarbeiten.[1]
Im Dezember 1968 wurde die Maus als Eingabegerät von ihrem Erfinder Douglas Engelbart vorgestellt. Doch erst mit der Weiterentwicklung der graphischen Anwendungen, der günstigeren industriellen Herstellung und einem darauf ausgelegten Betriebssystem konnte sich die Maus als Kommunikationsmittel etablieren. Ermöglicht wurde dies durch die Entwicklung des Macintoshs von Apple und dessen erfolgreiche Einführung im Jahr 1984.[2] Auch der Eingabemöglichkeit mittels Touchscreen wurde von Apple zum Durchbruch verholfen. Obwohl die Touch-Steuerung bereits 1988 von George Gerpheide patentiert wurde, konnte sie sich zunächst nur als Mausersatz für Laptops durchsetzen. Apple befasste sich mit der Weiterentwicklung der Technologie und beantragte im Jahr 2004 das Patent für Multitouch-Gesten, wobei sich auch hierbei die Touch-Bedienung erst mit der entsprechenden Software sowie der darauf ausgelegten Hardware durchsetzen konnte. Dies geschah, nachdem am 9. Januar 2007 das iPhone vorgestellt wurde. Mit dessen Bedienkonzept sowie dem App-basierten Softwareansatz konnte sich die Touch-Steuerung als Kommunikationsmittel etablieren.[3]
Das erste zuverlässige Spracherkennungssystem wurde bereits 1962 von IBM vorgestellt. Das System wurde ,Shoebox’ genannt, da es die Maße eines Schuhkartons besaß. Die Shoebox wurde von William Dersch und seinem Team bei IBM entwickelt und konnte 16 Worte verstehen und interpretieren. Die Funktionen waren auf mathematische Operationen ausgelegt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Die ,Shoebox’ mit William Dersch[4]
Mit dem Sprachverständigungsforschungsprogramm ,Speech Understanding Research’ (SUR) der Defense Advanced Research Projects Agency (DARPA), einer Behörde des US-Verteidigungsministeriums, wurden die Forschungen in diesem Bereich verstärkt. Der Carmegie Mellon University (CMU) gelang mit finanzieller Unterstützung der DARPA die Entwicklung eines Spracherkennungssystems, das 1.011 Wörter erkennen und verarbeiten konnte. Dieses System mit dem Namen HARPY wurde bereits 1976 vorgestellt, aber bis in die 1980er-Jahre weiterentwickelt. Dabei verwendete HARPY heuristische Suchmethoden und arbeitete im Vergleich zu allen bisher bekannten Anwendungen präzise, indem es Wortfolgen erkannte und erstmals eine Grammatik verwendete. Angewendet wurde dazu das mathematische System des Hidden-Markov-Modells (HMM), benannt nach dem russischen Mathematiker Andrej Markov. HMM ermöglichte die Berechnung der Wahrscheinlichkeit, mit der ein bestimmtes Wort einem anderen innerhalb eines Satzes folgt. HARPY wurde als Erfolg verzeichnet, fand jedoch nur für wissenschaftliche Zwecke Verwendung.[5]
Die Entwicklung der Spracherkennungssoftware wurde danach von zwei Forschern geprägt: Den Eheleuten James und Janet Baker. Sie wechselten 1975 erst von der CMU zum IBM-Forschungszentrum Watson und gründeten später im Jahr 1982 eine eigene Firma namens Dragon Systems. Dem Forscherpaar gelang es jedoch erst nach 15 Jahren Entwicklungsarbeit im Jahr 1997, die Spracherkennung signifikant zu verbessern. Mit der Software Dragon NaturallySpeaking konnte nun erstmals Sprache natürlich erkannt werden, ohne dass zwischen den Wörtern eine künstliche Pause eingelegt werden musste.[6] Zwar endete das Vorhaben für das Ehepaar Baker in einer persönlichen Tragödie, da die beiden ihre Software und die Patente im Zuge der Wirtschaftskrise im Jahr 2000 (Dotcom-Blase) verloren. Dennoch gilt auch heute noch die Weiterentwicklung der Dragon-NaturallySpeaking- Software als führende Spracherkennungssoftware, die aktuell von dem Unternehmen Nuance Communications Inc. erfolgreich vertrieben wird.[7]
Trotz der hohen Worterkennungsrate von 99 % schaffte es die Spracherkennungssoftware von Nuance nicht, die klassischen Eingabemethoden durch Tastatur und Maus oder Touch-Bedienung abzulösen. Die Spracherkennungsmethoden von Dragon NaturallySpeaking fanden jedoch Verwendung in einem weiteren Projekt der DARPA. Im Jahr 2003 wurde die Firma SRI Inc., ein Forschungsunternehmen aus Kalifornien, beauftragt, das Projekt ,Cognitive Assistant that Learns and Organizes’ (CALO) durchzuführen. Ziel war es, einen automatisierten Assistenten zu erstellen, der vom Benutzer lernen und eine Vielzahl von Aufgaben bewältigen kann. Als das Projekt abgeschlossen und vom Militär nicht weiterverfolgt wurde, gründeten 2007 einige Mitarbeiter des CALO-Projekts das Unternehmen Siri Inc. Drei Jahre später wurde das junge Unternehmen von Apple aufgekauft. Durch die intelligente Integration von Spracherkennung in die iPhones gelang es Apple, die Eingabemethode mittels gesprochener Sprache zu etablieren.[8] Laut einer Umfrage im April 2016 wenden in Deutschland bereits 47 % der Internetnutzer einen Sprachassistenten an.[9] Die Prognosen für die Nutzung von digitalen Assistenten weltweit versprechen auch zukünftig einen enormen Zuwachs. Dabei soll sich die weltweite Nutzerzahl von 504 Millionen in 2016 auf 1,831 Milliarden in 2021 erhöhen.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Anzahl der Nutzer digitaler Assistenten weltweit von 2015 bis 2021[10]
Die Grafik verdeutlicht das Potential von Sprachassistenten in naher Zukunft und die noch nicht abgeschlossene Entwicklung. Abgesehen von Apples Siri drängen sich weitere Teilnehmer auf den Markt der digitalen Assistenten: Hierzu zählen Amazon, Google und Microsoft mit ihren Sprachassistenten Alexa, Google Now und Cortana.
Durch die schnelle und stetige Weiterentwicklung der Technologie wird der Einsatz von Spracherkennungssoftware auch für Unternehmen interessant. In der Produktion können damit Roboter effizienter als bisher gesteuert und im Marketing Kundeninformationen präziser ermittelt werden. Auch Business- Intelligence-Anwendungen könnten mittels Sprache effizienter und intuitiver gestaltet werden. Das US-amerikanische Marktforschungsunternehmen Gartner deutete bereits im Jahr 2013 auf den Trend hin, dass Business- Intelligence-Anbieter ihre Software mittels Spracherkennung mit Analyseassistenten ausstatten werden,[11] auch wenn sich bisher keine Spracherkennungs- und Sprachsteuerungssoftware für Business- Intelligence-Anwendungen etablieren konnte. Doch auch für das Jahr 2017 erfolgte der Hinweis von Gartner auf die Wichtigkeit von Sprachverarbeitung innerhalb von Business-Intelligence-Software. Diesmal wurde er jedoch nicht als Trend gekennzeichnet, sondern als eine Notwendigkeit. Laut der Prognose muss eine moderne Business-Intelligence-Anwendung spätestens bis 2020 sprachgesteuerte, intelligente Assistenten anbieten.[12]
1.2 Zielsetzung dieser Arbeit
In dieser Arbeit soll eine Spracherkennungs- und Sprachsteuerungssoftware für eine Business-Intelligence-Anwendung konzipiert und als Prototyp umgesetzt werden. Die Software soll durch eine natürliche Sprache die Interaktion mit einer Business-Intelligence-Anwendung ermöglichen. Dabei soll die Business-Intelligence-Anwendung Sprachbefehle erkennen sowie interpretieren und im Anschluss anhand einer passenden Visualisierung entsprechende Auswertungen dynamisch darstellen.
Folgende Anforderungen sollte die Prototyp-Software dabei erfüllen:
- Natürliche Spracherkennung: Die Software soll natürlich gesprochene Sätze erkennen. Der Sprecher muss dabei keine künstlichen Pausen zwischen den einzelnen Wörtern einlegen.
- Einfache Sprachsteuerung: Die Navigation innerhalb der Business- Intelligence-Anwendung soll intuitiv mit Sprache ermöglicht werden.
- Intelligente Visualisierung: Je nach Fragestellung soll eine passende Visualisierung ausgewählt und automatisch dargestellt werden, womit eine leichte und fehlerfreie Interpretation der Daten ermöglicht wird.
1.3 Abgrenzung
Die Spracherkennungs- und Sprachsteuerungssoftware soll speziell für die Business-Intelligence-Software Qlik Sense konzipiert und entwickelt werden. Da der Aufbau einer Business-Intelligence-Anwendung nicht Bestandteil dieser Arbeit ist, soll die bestehende Qlik-Sense-Demoanwendung ,Executive Dashboard’ der Firma Qlik verwendet werden. Diese Anwendung wird bei der Standardinstallation der Qlik-Sense-Desktopanwendung mitgeliefert. Außerdem kann sie auch online auf der Qlik-Sense-Demoseite aufgerufen werden.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3: Qlik-Sense-Demoseite[13]
Die Demoanwendung ,Executive Dashboard’ ist für Führungskräfte konzipiert worden, damit diese die Leistung innerhalb ihres Unternehmens überwachen können und ihnen sowohl ein Überblick auf höchster Ebene als auch die Möglichkeit, detailliert in die Details des Unternehmens eindringen zu können, gegeben wird. Im für diese Arbeit genutzten Beispiel stellt das Unternehmen Verbrauchsmaterialien her und verwendet ein Reseller-Modell, um seine Produkte regional übergreifend zu verkaufen. Die Anwendung ist leicht verständlich und bietet trotzdem ausreichende Analysemöglichkeiten. Da sie öffentlich zugänglich ist und nur Daten zu Demonstrationszwecken und keine sensible Echtdaten eines Unternehmens beinhaltet, eignet sie sich zur Verwendung im Rahmen dieser Masterthesis. Nach der Erweiterung dieser Anwendung mit einer Sprachsteuerungssoftware sollen die Ergebnisse ebenfalls öffentlich zugänglich dargestellt werden.
Die Abgrenzung dient lediglich der besseren Vorstellbarkeit der Ergebnisse. Die entwickelte Sprachsteuerungssoftware soll mit geringem Implementierungsaufwand auch mit weiteren Qlik-Sense-Anwendungen verwendet werden können.
1.4 Aufbau der Arbeit
Nach der Einleitung mit Zielsetzung und Abgrenzung werden in Kapitel 2 die theoretischen Grundlagen erörtert. Dazu werden zunächst die menschliche Sprache, die Spracherkennung und die Mensch-Computer-Interaktion (MCI) vorgestellt. Danach werden virtuelle Assistenten untersucht und auch die Begriffe Usability sowie Responsive Webdesign erläutert. Das Kapitel zu den theoretischen Grundlagen wird mit der Vorstellung von den Möglichkeiten, die sich durch HTML5 und CSS3 sowie JavaScript und die Web Speech API ergeben, abgeschlossen.
In Kapitel 3 werden die unterschiedlichen Methoden für eine optimale Visualisierung von Daten untersucht. Im Anschluss wird in Kapitel 4 zuerst der Begriff Business Intelligence allgemein definiert und anschließend die Business-Intelligence-Plattform Qlik Sense näher vorgestellt. In Kapitel 5 findet die Konzeption der Sprachsteuerungssoftware für die Business- Intelligence-Anwendung statt. Danach werden im Kapitel 6 die Ergebnisse aus der Realisierung der Software abgebildet. Abschließend finden im letzten Kapitel eine kritische Würdigung sowie ein Ausblick auf weitere Einsatzmöglichkeiten statt.
2 Theoretische Grundlagen
2.1 Menschliche Sprache
Die Sprache ist die gesprochene Form der menschlichen Kommunikation. Sie basiert auf der syntaktischen Kombination von Wörtern, die dem spezifischen Vokabular der gesprochenen Sprache entstammen. Jedes Wort besteht dabei aus einer begrenzten Anzahl von Spracheinheiten, die Phoneme genannt werden. Das Phonem ist die kleinste Einheit des Sprechens und für die Spracherkennung besonders relevant, da sich mit derÄnderung eines Phonems auch die Bedeutung eines Wortes ändert.[14] Beispielsweise unterscheiden sich die Wörter ,backen‘ und ,packen‘ nur anhand ihres ersten Phonems und erhalten dadurch komplett unterschiedliche Bedeutungen. Obwohl der Mensch die Sprache unter den meisten Bedingungen leicht wahrnehmen kann, sind die zugrunde liegenden Prozesse komplex. Das Spektrogramm in Abbildung 4 veranschaulicht eine weitere Herausforderung der Spracherkennung. Das hier dargestellte Segmentierungsproblem besagt, dass die Grenzen zwischen den einzelnen Phonemen und Wörtern nicht ermittelt werden können, da die Sprache ständig gesprochen wird.[15]
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4: Spektrogramm für „Hallo, mein Name ist Mehmet Gencsoy“[16]
Diese Komplexität wird außerdem durch den großen Wortschatz der deutschen Sprache erhöht, der insgesamt ca. 500.000 Wörter beinhaltet. Der zentrale bzw. aktive Wortschatz eines Deutschen im Durchschnitt beträgt jedoch geschätzt nur noch 16.000 Wörter.[17]
2.2 Spracherkennung
Der Mensch kann diese hohe Anzahl an Wörtern ohne große Anstrengung produzieren und auch entsprechend verstehen, was zu der Annahme führt, dass dies auch für Computer eine leichte Aufgabe darstellt. Obwohl es zu einer großen Euphorie in den 1960er-Jahren kam und die Investitionen in die Forschungsarbeit beträchtlich waren, konnten jedoch nur geringfügige Fortschritte erzielt werden. Die Spracherkennungsleistung von Computern war verglichen mit den menschlichen Fähigkeiten weiterhin bescheiden.[18] Die natürliche Sprache gilt als grundlegender und gleichzeitig komplexer Bestandteil der menschlichen Intelligenz, weshalb die Spracherkennung und ihre Verarbeitung als ein schwieriger und wichtiger Teilbereich der künstlichen Intelligenz betrachtet werden muss.[19]
Unter Spracherkennung wird dabei der Vorgang verstanden, akustische Signale als gesprochene Wörter zu identifizieren und in einen maschinell bearbeitbaren Zustand umzuwandeln.[20] Das maschinelle Erkennen gesprochener Sprache ist es auch, was in dieser Arbeit eruiert werden soll. Das maschinelle Erkennen von geschriebener Sprache, bei dem ein Text anhand eines Scanners digitalisiert wird, ist nicht Bestandteil dieser Arbeit und wird nicht weiter erörtert.
Der Spracherkennungsprozess beginnt damit, dass die gesprochene Sprache mit einem Mikrofon aufgenommen wird. Danach muss im ersten Schritt das analoge Signal digitalisiert werden, damit der Computer es weiterverarbeiten kann.[21] Im zweiten Schritt werden bestimmte Merkmale extrahiert. Hierzu wird das Sprachsignal in kurze Abschnitte eingeteilt und anhand der für die Spracherkennung relevanten Frequenzen wird die Intensität bestimmt. Dies hat zusätzlich eine Reduktion der Datenmenge und eine Ermittlung der Merkmale Zeit, Frequenz und Intensität zur Folge.[22] Im darauffolgenden Schritt erfolgt die genaue Klassifikation, wobei die Phoneme bzw. die Wörter bestimmt werden. Dazu können unterschiedliche Verfahren angewendet werden:
- Spracherkennung mit Mustervergleich
- Statistische Spracherkennung
- Künstliche neuronale Netze
In den folgenden Abschnitten werden diese Methoden vorgestellt.
2.2.1 Spracherkennung mit Mustervergleich
Bei der Spracherkennung mit Mustervergleich werden die Wörter anhand von Referenzmustern ermittelt. Jedes einzelne Wort wird dabei aufgrund seines Sprachsignals vermessen und mit allen verfügbaren Referenzsignalen verglichen. Dazu müssen für alle Wörter die entsprechenden Referenzsignale gesammelt und aufbereitet werden.[23]
Da nicht jedes Wort immer identisch ausgesprochen wird, ist es unwahrscheinlich, dass ein Wort direkt ohne Abweichung einem Referenzsignal zugeordnet werden kann. Deswegen muss die Differenz zwischen den beiden Signalen mathematisch ermittelt werden. Die Signale, die die geringste Differenz zueinander aufweisen, werden als Treffer eingestuft. Die Spracherkennung findet durch die Zuordnung zu der entsprechenden Referenz statt.[24]
Für den Abgleich der Sprachsignale wird der Dynamic-Time-Warping- (DTW-)Algorithmus verwendet. Er kann mit ,Dynamische Zeitnormierung’ übersetzt werden. Mit der dynamischen Programmierung werden Vergleiche zwischen dem erfassten Wort und den vorhandenen Wortmustern mittels einer Gewichtungsfunktion gezogen. Anhand der Zeitnormierung bei den Vokalen erlaubt es der DTW-Algorithmus auch, unterschiedlich lang ausgesprochene Wörter zu ermitteln.[25]
Da hierbei einzelne Wörter miteinander verglichen werden, muss zwischen den Wörtern eine kurze Pause eingelegt werden. Dadurch ist der Mustervergleich mit DTW nicht für eine kontinuierliche und natürliche Spracherkennung geeignet. Ein weiteres Problem besteht darin, dass für die einzelnen Wörter Referenzmuster sprecherabhängig erfasst werden müssen. Dies ist ein zeitaufwendiger und datenintensiver Vorgang, da die sprecherabhängige Funktionsweise es erforderlich macht, dass für jeden Sprecher das System neu trainiert werden muss.[26]
2.2.2 Statistische Spracherkennung
Mit der statistischen Spracherkennung soll die Leistungsfähigkeit von Spracherkennungssystemen gesteigert werden. Dazu wird der gesamte Prozess in zwei unabhängige Vorgänge aufgeteilt. Es wird zuerst das akustische und anschließend das linguistische Modell angewendet.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 5: Vorgang bei der statistischen Spracherkennung[27]
Der gesamte Vorgang lässt sich folgendermaßen zusammenfassen: Von einem Sprecher wird eine bestimmte Anzahl an Wörtern W übermittelt. Das akustische Modell wandelt die Wörter zuerst in ein analoges Sprachsignal F um und anschließend findet die maschinelle Verarbeitung statt. Bei dieser wird das Sprachsignal D digital und quantisiert an das linguistische Modell weitergegeben. Das linguistische Modell führt nun eine Schätzung durch und berücksichtigt dabei auch die Wortfolge, damit unsinnige Wortfolgen ausgeschlossen werden können. Das Ergebnis der Erkennung ist eine Schätzung für das gesprochene Wort W*.[28]
Wird das akustische Modell näher betrachtet, lässt sich erkennen, dass es die Zusammenhänge zwischen einzelnen Merkmalen und den Wortfolgen beschreibt. Die Wörter werden dabei in ihre kleinsten Einheiten, in Phoneme, aufgeteilt und anschließend als Ketten betrachtet. Diese Ketten werden nach bestimmten Regeln angeordnet, die innerhalb von Phonemmodellen festgelegt werden. Dieser Vorgang erfolgt in der Regel mit dem HMM. Dazu werden die möglichen Zustände der Phoneme und die zulässigen Folgephoneme durch Verbindungen zwischen den Zuständen repräsentiert. Ganze Wörter bzw. Wortfolgen können darauf aufbauend anhand der Kombination der Klassifikationswahrscheinlichkeiten der Zustände und der Wahrscheinlichkeiten der Zustandsübergänge bewertet werden.[29]
Bei der statistischen Analyse werden dementsprechend plausible Lösungen betrachtet, wobei Folgewörter mit statistisch höherer Wahrscheinlichkeit bevorzugt werden. Damit können sogar Versprecher vom Spracherkennungssystem korrigiert werden. In der Praxis sind diese Möglichkeiten allerdings begrenzt, da bei längeren Wortfolgen die große Anzahl von Wahrscheinlichkeiten nicht berechnet werden kann bzw. der Entwicklungsaufwand enorm großist. Aus diesem Grund sind starke Vereinfachungen notwendig. Außerdem kann nur die Wahrscheinlichkeit berechnet werden, dass auf ein bestimmtes Wort ein oder mehrere andere bestimmte Wörter folgen müssen. Diese Schätzung von begrenzten Wortpaaren ist relativ unkompliziert, liefert aber für nicht beobachtete Wortpaare keine zuverlässigen Ergebnisse.[30]
2.2.3 Künstliche neuronale Netze
Mit künstlichen neuronalen Netzen soll der enorme Entwicklungsaufwand für die Berechnung der Wahrscheinlichkeiten von Wortfolgen reduziert werden. Neuronale Netze orientieren sich dabei an der Funktionsweise des menschlichen Gehirns. Dieses wird als Analogie benutzt und es wird versucht, die gleiche Funktionsweise mit Computern zu simulieren. Dem Neuronennetz werden dabei nur der Input und der gewünschte Output vorgegeben und es lernt danach ähnlich wie ein Mensch. Die einzelnen Neuronen spezialisieren sich auf bestimmte Details, wie etwa auf die Phoneme.[31]
Erst durch die verbesserten Rechnerleistungen der letzten zehn Jahre lassen sich neuronale Netze mit Millionen von Neuronen aufbauen, wodurch die Untersuchung komplexer Problemstellungen mit künstlichen Netzen überhaupt erst möglich wird.[32] Der eigentliche Vorteil der neuronalen Netze liegt bei ihrer eigenständigen Lernfähigkeit und der Fehlertoleranz. Wenn ein Wort nicht sauber ausgesprochen wird, kann dies mittels neuronaler Netze besser erkannt werden und durch die Lernfähigkeit des Netzes wird ein möglicher Fehler bei zukünftigen Fällen ebenfalls berücksichtigt. Außerdem bleibt das Netz auch bei Teilausfällen funktionsfähig. Da die einzelnen Knotenpunkte des Netzes parallel arbeiten, lassen sich zudem hohe Arbeitsgeschwindigkeiten erreichen.[33] Die folgende Abbildung 6 stellt ein neuronales Netz beispielhaft dar.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 6: Beispiel neuronales Netz[34]
2.3 Mensch-Computer-Interaktion
Untersuchungen im Bereich der Mensch-Computer-Interaktion (MCI) gehören zum Forschungsgebiet der Informatik und sind eines der zentralen Elemente bei der Gestaltung von Computeranwendungen. Mehrere internationale Institutionen beschäftigen sich mit Studien in diesem Bereich. Abgesehen von der Informatik haben auch die Kognitionsforschung und die Psychologie ein Interesse an der Thematik.[35]
Bei der MCI wird die Art und Weise analysiert, wie die Computertechnologie die Arbeit und die Aktivitäten des Menschen beeinflusst. Unter dem Begriff ,Computertechnologie’ werden dabei die Technologien von Computern mit Bildschirmen und Tastaturen über Mobiltelefone bis hin zu Tablets und smarten Endgeräten verstanden. Die MCI beinhaltet eine entsprechende Designdisziplin, die sich darauf konzentriert, Computertechnologie auf eine möglichst unkomplizierte und leicht zu bedienende Art zu gestalten. Ein Schlüsselaspekt der Designdisziplin ist der Begriff der Usability, der häufig als Konglomerat aus Effizienz, Effektivität und Zufriedenheit definiert wird. Aber genauso wichtig oder sogar bedeutender bei Systemen, die für den persönlichen Gebrauch konzipiert sind, ist die Benutzererfahrung. Hiermit ist die Art und Weise gemeint, wie die Menschen über das System denken, während sie es benutzen.[36]
Die Mensch-Maschine-Interaktion (MMI) stellt das übergeordnete Forschungsgebiet zur MCI dar, wobei es sich mit den gleichen Fragestellungen beschäftigt. Dabei berücksichtigt es aber gleichzeitig alle Technologien und betrachtet die Systeme Mensch und Maschine verallgemeinert ganzheitlich. Inbegriffen ist auch die industrielle Untersuchung von Haushaltsgeräten, Navigationssystemen im Auto und eingebetteten automatisierten Sensoren.[37]
Die ersten Erkenntnisse der MCI wurden für die Interaktion mit Computern über Tastatur und Maus angewendet. Auch weiterhin werden Anwendungen entsprechend den wachsenden Bildschirmgrößen stetig angepasst oder folglich dynamisch dargestellt. Aufgrund des starken Wachstums an mobilen Endgeräten mit Touchscreens wurden die Anwendungen zudem weiter vereinfacht und es erfolgte eine an die Endgeräte angepasste Darstellung der Inhalte. Mit der Sprachsteuerung kommt es nun zu neuen Anforderungen an die MCI. Die Anwendungen müssen weiter angepasst und für die Eingabemethode optimiert werden.[38]
2.4 Virtuelle Assistenten
Mit virtuellen Assistenten kann eine künstliche Intelligenz mit einer Sprachsteuerung gekoppelt und auf vernetzten Endgeräten angeboten werden. Dank der Sprachsteuerung kann der Nutzer direkt mit dem Gerät sprechen und Anweisungen oder Fragen stellen. Dabei kann es sich um ein Mobiltelefon, einen Computer, smarte Lautsprecher oder smarte Uhren handeln. Sowohl die Anzahl der Endgeräte als auch die Anzahl der Nutzer nehmen stetig zu. Laut einer Prognose der US-Firma Tractica werden im Jahr 2019 insgesamt 1,831 Milliarden Nutzer virtuelle Assistenten verwenden.[39]
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 7: Umsatz mit virtuellen digitalen Assistenten weltweit von 2015 bis 2021[40]
Dies verdeutlicht auch die finanziellen Möglichkeiten, die sich durch die Produktion virtueller Assistenten bieten. Eine weitere Studie desselben Unternehmens prognostizierte ein Umsatzwachstum von 2,25 Milliarden US- Dollar in 2018 auf 11,86 Billionen US-Dollar in 2021.[41] Das Potential zeigt sich auch durch die ständig wachsenden Anwendungsbereiche, die sich durch neue Produkte ergeben. Mittlerweile lassen sich Heizung oder Beleuchtung von Häusern mittels virtueller Assistenten per Sprachbefehl steuern. Auch die Industrie erschließt sich bereits die Möglichkeiten von virtuellen Assistenten durch die Produktion von smarten Brillen und Terminals, die per Sprachbefehl die nächsten Aufträge anzeigen.[42]
Sämtliche in diesem Kapitel genannten virtuellen Assistenten bedienen sich der Cloud-Technologie. Die Sprachanfragen werden über das Internet an Rechenzentren verschickt, in denen mit Hilfe neuronaler Netze die Daten verarbeitet und passende Antworten ermittelt werden. Aktuell wird der Markt von Apples Siri, Amazons Alexa, Googles Assistant und Cortana von Microsoft beherrscht.[43]
Siri ist seit der Einführung von Apples iOS 5 im Jahr 2011 ein integraler Bestandteil des mobilen Betriebssystems. Zuerst konnte Siri nur mit Wettermeldungen und einfachen Nachrichtendiensten weiterhelfen, doch mittlerweile beginnt der Sprachassistent Anrufe, sendet Nachrichten, plant Meetings, startet Apps und Spiele, spielt Musik, beantwortet diverse Fragen und setzt Erinnerungen. Mit dem SiriKit können innerhalb einer Anwendung Funktionalitäten von Siri integriert werden. Diese Möglichkeiten bietet Apple jedoch nur für iOS-Anwendungen.[44]
Der Sprachassistent von Amazon, Alexa, konzentriert sich nicht auf Mobiloder Computeranwendungen, sondern auf den Amazon-Echo-Lautsprecher und eine begrenzte Anzahl von Amazon-Fire-Geräten. Hierbei wird Alexa mit dem Amazon-Account verknüpft und ermöglicht somit direkte Einkäufe per Sprachbefehl. Außerdem bietet Alexa weitere Anpassungsmöglichkeiten, beispielsweise in Form von ,Skills’, die den Sprachassistenten um weitere Dienste und Funktionen erweitern können. Damit eignet sich Alexa vor allem für den Smart-Home-Bereich, wobei unterschiedliche Hardware zur Erweiterung der nutzbaren Skills führen kann. Mit dem Alexa-Voice-Service können auch Webanwendungen die Spracherkennungsfunktionen nutzen, allerdings muss der Anwender sich dafür mit seinem Amazon-Account anmelden. Alexa funktioniert daher ausschließlich in Zusammenhang mit einem Amazon-Konto.[45]
Im Gegensatz zu den anderen Plattformen hat Googles Assistant weder einen weiblichen Namen noch wird er als Persönlichkeit dargestellt. Google stellte ihn dabei als mächtiges Werkzeug vor. Er bietet die gleichen Funktionen an wie Siri oder Alexa, die Integration in die Suchmaschine Google macht ihn aber zu einem der nützlichsten virtuellen Assistenten. Wurde zuvor Google als Suchmaschine verwendet, werden die gesammelten Informationen vom Google Assistant weiter verwendet, damit auch persönliche Präferenzen besser berücksichtigt werden können. Durch die Markteinführung von Google Home lässt sich der Sprachassistent direkt mit Alexa vergleichen, jedoch wird der Google Assistant auch mit Android Smartphones und Smartwatches angeboten, womit er über eine breitere Reichweite als Amazons Alexa und auch Apples Siri verfügt. Google bietet ebenfalls eine Schnittstelle an, jedoch müssen sich auch hier die Anwender zuvor mit einem Google-Konto anmelden.[46]
Ein weiterer, allerdings betriebssystemorientierter Sprachassistent, der sowohl auf Windows-10-Geräten als auch auf der Xbox-One-Konsole verfügbar ist, ist Cortana. Mit Cortana soll die Produktivität bei der Arbeit am PC gesteigert werden. Es bietet die gleichen Funktionen wie Siri, Alexa und Google Assistant an und greift dabei auf die Daten der hauseigenen Suchmaschine Bing zurück. Im Gegensatz zu den anderen Sprachassistenten verfügt Cortana noch über kein Angebot für Smart-Home- Geräte. Jedoch kann es auf den mobilen Endgeräten mit iOS oder Android als App eingerichtet werden, wobei allerdings die deutsche Sprache bisher nicht unterstützt wird.[47]
Es existieren weitere Anbieter virtueller Sprachassistenten, auf die aufgrund des begrenzten Umfangs dieser Arbeit jedoch nicht weiter eingegangen wird.
2.5 Usability und Responsive Webdesign
Der Begriff Usability lässt sich im Zusammenhang mit Webdesign äußerst vielfältig als Verwendbarkeit, Nutzbarkeit oder Brauchbarkeit ins Deutsche übersetzen. Die DIN EN ISO 9241 definiert Usability abstrakter:
„Usability ist das Ausmaß, in dem ein Produkt durch bestimmte Benutzer in einem bestimmten Nutzungskontext genutzt werden kann, um bestimmte Ziele effektiv, effizient und zufriedenstellend zu erreichen.“[48]
Im Deutschen wird Usability im Rahmen der Softwareentwicklung häufig mit Benutzerfreundlichkeit übersetzt. Der User soll nur so viel Aufwand mit der Beantwortung seiner Fragen haben, wie unbedingt notwendig. In Bezug auf die Darstellung einer Webseite lassen sich die Anforderungen in drei Bereiche unterteilen.
Für die allgemeine Gestaltung der Seite lassen sich folgende Richtlinien definieren:[49]
- Gute Lesbarkeit
- Vermeidung des horizontalen Scrollens
- Einhaltung einer maximalen Zeilenlänge von 50 bis 80 Zeichen
- Verwendung von kontrastreichen Farben
- Nutzung relativer Größenangaben
Für die inhaltliche Gestaltung der Webseite sollten folgende Richtlinien beachtet werden:
- Schnelle Lesbarkeit
- Leichte Verständlichkeit
- Wichtigste Aussagen stehen an oberster Stelle
[...]
[1] Vgl. Heilige, Hans Dieter: Mensch-Computer-Interface: Zur Geschichte und Zukunft der Computerbedienung, 1. Auflage, Bielefeld 2008, S. 27 ff.
[2] Vgl. Moser, Christian: User Experience Design: Mit erlebniszentrierter Softwareentwicklung zu Produkten, die begeistern, 1. Auflage, Heidelberg 2012, S. 132 ff.
[3] Vgl. Schlegel, Thomas (Hrsg.); Wimmer, Christian; Lohmann, Steffen; Raschke, Michael: Multi-Touch: Interaktion durch Berührung, 1. Auflage, Heidelberg 2013, S. 195 ff.
[4] Aus o.V.: IBM Shoebox, in: https://www- 03.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html, Abrufdatum: 30.10.2017.
[5] Vgl. Schukat-Talamazzini, Ernst Günter: Automatische Spracherkennung: Grundlagen, statistische Modelle und effiziente Algorithmen, 1. Auflage, Wiesbaden 1995, S. 12 ff.
[6] Vgl. Nilsson, Nils J.: Die Suche nach künstlicher Intelligenz: Eine Geschichte von Ideen und Erfolgen, 1. Auflage, Berlin 2014, S. 212 ff.
[7] Vgl. o.V.: Tragödie. US-Forscher: Goldman Sachs hat uns um unser Lebenswerk gebracht, in: https://deutsche-wirtschafts-nachrichten.de/2012/11/11/us-forscher-goldman- sachs-hat-uns-um-unser-lebenswerk-gebracht/, Abrufdatum: 04.11.2017.
[8] Vgl. Bellegarda, Jerome R.: Spoken language understanding for natural interaction: The Siri Experience, in: Mariani, J.;Rosset, S.;Garnier-Rizet, M.; Devillers, L. (Hrsg.): Natural Interaction with Robots, Knowbots and Smartphones: Putting Spoken Dialog Systems into Practice, S.3-14, New York 2014, S. 11.
[9] Vgl. Brandt, Mathias: Nutzung von Sprachassistenten in Deutschland, in: https://de- statista-com.gw.akad-d.de/infografik/4686/nutzung-von-sprachassistenten-in-deutschland/, Abrufdatum: 05.11.2017.
[10] Vgl. o.V.: Statista: Anzahl der Nutzer virtueller digitaler Assistenten weltweit in den Jahren von 2015 bis 2021, in: https://de-statista-com.gw.akad-
d.de/statistik/daten/studie/620321/umfrage/nutzung-von-virtuellen-digitalen-assistenten- weltweit, Abrufdatum: 05.11.2017.
[11] Vgl. Schaffry, Andreas: Gartner identifiziert drei BI-Trends bis 2016: BI-Pakete, Big Data, Sprachsteuerung, in: https://www.computerwoche.de/a/gartner-identifiziert-drei-bi-trends- bis-2016,2532383,2, Abrufdatum: 05.11.2017.
[12] Vgl. Richardson, Joao Tapadinhas: Magic Quadrant for Business Intelligence and Analytics Platforms, Stamford 2017, S. 1 ff.
[13] Aus o.V.: Qlik Sense Demo, in: https://sense-demo.qlik.com/hub/stream, Abrufdatum: 05.11.2017.
[14] Vgl. Meibauer, Jörg: Einführung in die germanistische Linguistik, 3., überarbeitete und aktualisierte Auflage, Stuttgart 2015, S. 82.
[15] Vgl. Fink, Gernot A.: Mustererkennung mit Markov-Modellen: Theorie — Praxis — Anwendungsgebiete, 1. Auflage, Wiesbaden 2003, S. 14.
[16] Eigene Darstellung.
[17] Vgl. Bibliographisches Institut (Hrsg.): Duden: Die deutsche Rechtschreibung, 26. Auflage, Berlin 2014, S. 127.
[18] Vgl. Pfister, Beat; Kaufmann, Tobias: Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, 2. Auflage, Berlin 2017, S. 21.
[19] Vgl. Wettler, Manfred: Sprache, Gedächtnis, Verstehen, 1. Auflage, Berlin 1980, S. 6 ff.
[20] Vgl. Euler, Stephen: Grundkurs Spracherkennung, 1. Auflage, Wiesbaden 2006, S. 17.
[21] Vgl. Fellbaum, Klaus: Sprachverarbeitung und Sprachübertragung, 2. Auflage, Berlin 2012, S. 320.
[22] Vgl. Fellbaum, Klaus: Sprachverarbeitung und Sprachübertragung, 2. Auflage, Berlin 2012, S. 350.
[23] Vgl. Pfister, Beat; Kaufmann, Tobias: Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, 2. Auflage, Berlin 2017, S. 363 ff.
[24] Vgl. Holmes, John: Sprachsynthese und Spracherkennung, 1. Auflage, München 1991, S. 166 ff.
[25] Vgl. Wendemuth, Andreas: Grundlagen der stochastischen Sprachverarbeitung, 1. Auflage, Berlin 2004, S. 137.
[26] Vgl. Heinrich, Lutz J.; Lehner, Franz; Roithmayr, Friedrich: Informations- und Kommunikationstechnik für Betriebswirte und Wirtschaftsinformatiker, 4. Auflage, München 1994, S. 268.
[27] In Anlehnung an Fischer, Volker; Klehr, Markus; Kunzmann, Siegfried: Multilinguale Spracherkennung und Sprachsynthese, in: Kircher, Herbert (Hrsg.): IT: Technologien, Lösungen, Innovationen, S.162-184, 1. Auflage, Berlin 2007, S. 167.
[28] Vgl. Fischer, Volker; Klehr, Markus; Kunzmann, Siegfried: Multilinguale Spracherkennung und Sprachsynthese, in: Kircher, Herbert (Hrsg.): IT: Technologien, Lösungen, Innovationen, S.162-184, 1. Auflage, Berlin 2007, S. 167.
[29] Vgl. Kummert, Franz; Schillo, Christoph; Fink, Gernot A.: Wie ein Rechner aus Schallwellen Wörter erkennt: Spracherkennung mit statistischen Verfahren, in: Universität Bielefeld (Hrsg.): Forschung an der Universität Bielefeld, Ausgabe 17/1998, S.10-14, Bielefeld 1998, S. 11.
[30] Vgl. Kummert, Franz; Schillo, Christoph; Fink, Gernot A.: Wie ein Rechner aus Schallwellen Wörter erkennt: Spracherkennung mit statistischen Verfahren, in: Universität Bielefeld (Hrsg.): Forschung an der Universität Bielefeld, Ausgabe 17/1998, S.10-14, Bielefeld 1998, S. 12.
[31] Vgl. Karrenberg, Ulrich: Signale, Prozesse, Systeme: Eine multimediale und interaktive Einführung in die Signalverarbeitung, 7. Auflage, Berlin 2017, S. 444 ff.
[32] Vgl. Pfister, Beat; Kaufmann, Tobias: Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, 2. Auflage, Berlin 2017, S. 440.
[33] Vgl. Kriesel, David: Ein kleiner Überblick über Neuronale Netze, in: http://www.dkriesel.com/science/neural_networks, Abrufdatum: 06.12.2017, S. 5.
[34] Eigene Darstellung.
[35] Vgl. Nardi, Bonnie A.: Context and Consciousness: Activity Theory and Human-Computer Interaction, 1. Auflage, London 1996, S. 17.
[36] Vgl. Carroll, John M.: HCI Models, Theories, and Frameworks: Toward a Multidisciplinary Science, 1. Auflage, San Francisco 2003, S. 1.
[37] Vgl. Butz, Andreas; Krüger, Antonio: Mensch-Maschine-Interaktion, 2. Auflage, Berlin 2017, S. 2.
[38] Vgl. Harper, Richard; Rodden, Tom; Rogers, Yvonne; Sellen, Abigail: Being Human: Human-Computer Interaction in the year 2020, 1. Auflage, Cambridge 2008, S. 17.
[39] Vgl. o.V.: Statista: Anzahl der Nutzer virtueller digitaler Assistenten weltweit in den Jahren von 2015 bis 2021, in: https://de-statista-com.gw.akad-
d.de/statistik/daten/studie/620321/umfrage/nutzung-von-virtuellen-digitalen-assistenten- weltweit, Abrufdatum: 05.11.2017.
[40] Aus o.V.: Statista: Umsatz mit virtuellen digitalen Assistenten für Endkunden im Jahr 2015 sowie eine Prognose bis 2021, in: https://de-statista-com.gw.akad- d.de/statistik/daten/studie/681207/umfrage/umsatz-mit-virtuellen-digitalen-assistenten- weltweit/, Abrufdatum: 13.12.2017.
[41] Vgl. o.V.: Statista: Umsatz mit virtuellen digitalen Assistenten für Endkunden im Jahr 2015 sowie eine Prognose bis 2021, in: https://de-statista-com.gw.akad- d.de/statistik/daten/studie/681207/umfrage/umsatz-mit-virtuellen-digitalen-assistenten- weltweit/, Abrufdatum: 13.12.2017.
[42] Vgl. Wendehost, Tobias: Trendthema Sprachsteuerung: Warum Siri und Co. die Zukunft gehört, 2013, in: https://www.computerwoche.de/a/warum-siri-und-co-die-zukunft- gehoert,2539106,2, Abrufdatum: 17.12.2017.
[43] Vgl. Bager, Jo: Smartphone denkt voraus: Hinter den Kulissen von Siri und Co., in: c't - magazin für Computertechnik, Ausgabe 16/2015, S.122-127, Hannover 2015, S. 122.
[44] Vgl. Zota, Volker: Apples virtuelle Assistentin Siri auf den Spuren von Google Now, in: c't - magazin für Computertechnik, Ausgabe 16/2015, S.130-131, Hannover 2015, S. 130.
[45] Vgl. o.V.: Virtual assistant comparison: Cortana, Google Assistant, Siri, Alexa, Bixby, in: https://www.digitaltrends.com/computing/cortana-vs-siri-vs-google-now/, Abrufdatum: 24.12.2017.
[46] Vgl. Mall, Sarah: Actions on Google: Die besten Google Skills für Google Home, in: https://www.homeandsmart.de/google-actlons-google-asslstant-home-skllls, Abrufdatum: 22.12.2017.
[47] Vgl. Joos, Thomas: Windows 10 - der Sprachassistent Cortana in der Praxis, in: https://www.computerwoche.de/a/windows-10-der-sprachassistent-cortana-in-der- praxis,3203418, Abrufdatum: 21.12.2017.
[48] o.V.: Norm DIN EN ISO 9241: Ergonomie der Mensch-System-Interaktion, Teil 11: Anforderungen an die Gebrauchstauglichkeit - Leitsätze, 2005.
[49] Vgl. Lynch, Patrick; Horton, Sarah: Web Style Guide, 4. Auflage, Yale 2016, S. 207 ff.
- Citar trabajo
- Mehmet Gençsoy (Autor), 2018, Konzeptionierung und Realisierung einer Spracherkennungs- und Sprachsteuerungssoftware für Business-Intelligence-Anwendungen, Múnich, GRIN Verlag, https://www.grin.com/document/425392
-
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X.