Die Umsätze des Online-Handels mit Produkten und Dienstleistungen wachsen jährlich. Damit verbunden entstehen kontinuierlich neue Geschäftsmodelle und neue technische Innovationen im Bereich des E-Commerce. Eine dieser neuen Innovationen ist der Online-Einkauf mit digitalen Sprachassistenten, dem ein enormes Wachstumspotenzial prognostiziert wird. Die vorliegende Masterarbeit gibt einen Überblick über den gegenwärtigen Zustand von Sprachassistenten in Deutschland mit besonderem Vermerk auf die Forschungsfragen dieser Arbeit, die die Akzeptanz und Akzeptanzfaktoren dieser Technologie im E-Commerce thematisieren.
Da das Gebiet des Voice-Commerce in Deutschland noch weitgehend unerforscht ist, besteht Forschungsbedarf. Aus diesem Grund beinhaltet der erste Teil dieser Arbeit eine ausführliche Literaturanalyse. Die wichtigsten Erkenntnisse dieser Analyse sind festgehalten und verschriftlich worden. Zur weiteren Beantwortung der Forschungsfragen ist eine quantitative empirische Erhebung in Form einer Online-Befragung durchgeführt worden. Infolgedessen ist ein Akzeptanzmodell vorgestellt und angewendet worden. Mit Hilfe dieses Modells sind die Forschungsfragen anhand von neun Hypothesen konkretisiert worden, die mit der angewandten Online-Befragung auf ihre Richtigkeit überprüft worden sind. Als wichtigste Erkenntnis dieser wissenschaftlichen Arbeit lässt sich ableiten, dass der Voice-Commerce in Deutschland tendenziell noch ein Randdasein darstellt und sich Sprachsteuerung als Shopping-Methode in Deutschland noch nicht durchgesetzt hat. Als die größten Hindernisse zur Akzeptanz des Voice-Commerce gelten die bevorzugte Nutzung von Geräten mit Bildschirmen, die noch limitierte Sprachqualität, Datenschutzbedenken und mangelndes Vertrauen. Als Faktoren zur Steigerung der Akzeptanz können Bequemlichkeit, Zeitersparnis und Automatisierungsmöglichkeiten aufgelistet werden. Da das Gebiet des Voice-Commerce noch am Anfang seiner Entfaltung in Deutschland steht, werden in Zukunft weitere Forschungen in diesem Themenbereich notwendig sein.
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
Abkürzungsverzeichnis
1 Einleitung
1.1 Problemkontext
1.2 Ziel der Arbeit
1.3 Aufbau der Arbeit
2 Theoretische Grundlagen
2.1 Abgrenzung E-Commerce und Voice-Commerce
2.2 Technische Entwicklung und Ursprung der Sprachassistenten
2.3 Funktionsweise von Sprachassistenten
3 Status Quo von Sprachassistenten
3.1 Anbieter von Sprachassistenten
3.1.1 Google Assistant
3.1.2 Amazon Alexa
3.1.3 Apple Siri
3.1.4 Microsoft Cortana
3.2 Anwendungsfelder
3.2.1 Information und digitale Assistenz
3.2.2 Unterhaltung
3.2.3 Steuerung
3.2.4 Einkauf
3.3 Möglichkeiten der Umsatzerzielung
3.3.1 Bestellannahme
3.3.2 Wiederkauf
3.3.3 Deals und Angebote
3.3.4 Verfüg barkeits- und Preisabfrage
3.3.5 Produkt- und Verkaufsberatung
3.3.6 Produktinformation
3.3.7 Merkzettel
3.3.8 Say and Collect
3.4 Voice Commerce in Deutschland
3.4.1 Hindernisse zur Nutzung von Sprachassistenten
3.4.2 Motivation zur Nutzung von Sprachassistenten
3.4.3 Prognosen und Auswirkungen des Voice-Commerce
3.5 Zukünftige Entwicklungen
4 Akzeptanzmodell für digitale Sprachassistenten
4.1 Begriffseinordnung Akzeptanz
4.2 Modell zur Akzeptanzmessung - Technology Acceptance Model
4.3 Adaption des Technology Acceptance Model
4.3.1 Wahrgenommener Nutzen
4.3.2 Wahrgenommene einfache Bedienbarkeit
4.3.3 Wahrgenommenes Risiko
4.3.4 Vertrauen
4.3.5 Intention zur Nutzung
5 Empirische Untersuchung zur Akzeptanz von Sprachassistenten im ECommerce
5.1 Hypothesenbildung
5.2 Konzeptualisierung
5.3 Erfolgsvorbereitung und Datenerhebung
5.4 Datenaufbereitung
5.5 Datenanalyse
5.6 Interpretation
6 Fazit
Literaturverzeichnis
Anhang
Anhang 1: Fragebogen
Anhang 2: Kreuztabelle
Anhang 3: Kodeplan
Anhang 4: Korrelationsmatrix
Anhang 5: Strukturgleichungsmodell
Abbildungsverzeichnis
Abbildung 1 Entwicklung der Mensch-Maschine-Schnittstelle
Abbildung 2 Software-Komponenten bei Sprachassistenten
Abbildung 3 Ablauf einer Suchanfrage
Abbildung 4 Digitale Sprachassistenten nach Bekanntheit und Nutzung
Abbildung 5 Innovationsadaptionskurve für Sprachassistenten in Deutschland
Abbildung 6 Nutzung internetfähiger Geräte zum Online-Einkauf
Abbildung 7 Einkäufe über Amazons Alexa in Deutschland
Abbildung 8 Gründe für die Ablehnung von Sprachassistenten beim Einkaufen
Abbildung 9 Gründe für die generelle Ablehnung von Sprachassistenten
Abbildung 10 Gründe für die Bevorzugung von Sprachassistenten gegenüber Webseite und App
Abbildung 11 Gründe für die Bevorzugung von Sprachassistenten gegenüber menschlichen Interaktionen
Abbildung 12 Änderungen der Ausgaben der verschiedenen Verkaufskanäle
Abbildung 13 Voice-Commerce im Jahr 2030: Mögliche Szenarien
Abbildung 14 Technology Acceptance Model nach Davis
Abbildung 15 Konzeptuelles Modell nach Pavlou
Abbildung 16 Adaptiertes TAM mit Hypothesen
Abbildung 17 Gründe der Befragten gegen das Einkaufen mit Sprachassistenten
Abbildung 18 Pfaddiagramm des Strukturgleichungsmodells
Tabellenverzeichnis
Tabelle 1 Möglichkeiten der Umsatzerzielung mit Sprachassistenten
Tabelle 2 Definition der Variablen
Tabelle 3 Allgemeine Fragestellungen über Nutzungsverhalten
Tabelle 4 Likert-Skala mit Antwortmöglichkeiten bzgl. Grundhaltungen gegenüber Sprachassistenten
Tabelle 5 Indikatoren zur Messung der latenten Variablen
Tabelle 6 Umfrageteilnehmer nach Geschlecht und Alter
Tabelle 7 Cronbachs a der Variablen
Tabelle 8 Korrelationen Hypothese 2
Tabelle 9 Korrelationen Hypothese 3
Tabelle 10 Korrelationen Hypothese 4
Tabelle 11 Korrelationen Hypothese 5
Tabelle 12 Korrelationen Hypothese 6
Tabelle 13 Korrelationen Hypothese 7
Tabelle 14 Korrelationen Hypothese 8
Tabelle 15 Korrelationen Hypothese 9
Tabelle 16 Zusammenfassung der Hypothesenanalyse
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Zusammenfassung
Die Umsätze des Online-Handels mit Produkten und Dienstleistungen wachsen jährlich. Damit verbunden entstehen kontinuierlich neue Geschäftsmodelle und neue technische Innovationen im Bereich des E-Commerce. Eine dieser neuen Innovationen ist der On- line-Einkauf mit digitalen Sprachassistenten, dem ein enormes Wachstumspotenzial prognostiziert wird. Die vorliegende Masterarbeit gibt einen Überblick über den gegenwärtigen Zustand von Sprachassistenten in Deutschland mit besonderem Vermerk auf die Forschungsfragen dieser Arbeit, die die Akzeptanz und Akzeptanzfaktoren dieser Technologie im E-Commerce thematisieren. Da das Gebiet des Voice-Commerce in Deutschland noch weitgehend unerforscht ist, besteht Forschungsbedarf. Aus diesem Grund beinhaltet der erste Teil dieser Arbeit eine ausführliche Literaturanalyse. Die wichtigsten Erkenntnisse dieser Analyse sind festgehalten und verschriftlich worden. Zur weiteren Beantwortung der Forschungsfragen ist eine quantitative empirische Erhebung in Form einer Online-Befragung durchgeführt worden. Infolgedessen ist ein Akzeptanzmodell vorgestellt und angewendet worden. Mit Hilfe dieses Modells sind die Forschungsfragen anhand von neun Hypothesen konkretisiert worden, die mit der angewandten Online-Befragung auf ihre Richtigkeit überprüft worden sind. Als wichtigste Erkenntnis dieser wissenschaftlichen Arbeit lässt sich ableiten, dass der Voice-Commerce in Deutschland tendenziell noch ein Randdasein darstellt und sich Sprachsteuerung als ShoppingMethode in Deutschland noch nicht durchgesetzt hat. Als die größten Hindernisse zur Akzeptanz des Voice-Commerce gelten die bevorzugte Nutzung von Geräten mit Bildschirmen, die noch limitierte Sprachqualität, Datenschutzbedenken und mangelndes Vertrauen. Als Faktoren zur Steigerung der Akzeptanz können Bequemlichkeit, Zeitersparnis und Automatisierungsmöglichkeiten aufgelistet werden.
Da das Gebiet des Voice-Commerce noch am Anfang seiner Entfaltung in Deutschland steht, werden in Zukunft weitere Forschungen in diesem Themenbereich notwendig sein.
Abstract
Online sales of products and services grow annually. In connection with this, new business models and new technical innovations in the field of e-commerce are constantly emerging. One of these new innovations is online shopping with digital voice assistants, which are predicted to have enormous growth potential. This master thesis provides an overview of the current state of digital voice assistants in Germany, which address the acceptance and acceptance factors of this technology in e-commerce. Since the field of voice commerce is still largely unexplored in Germany, research is needed. For this reason, the first part of this thesis includes a detailed literature analysis. The most important findings of this analysis have been recorded and written down. To further answer the research questions, a quantitative empirical survey in the form of an online survey was carried out. As a result, an acceptance model has been presented and applied. With the help of this model, the research questions were concretized based on nine hypotheses, which were checked for correctness with the applied online survey. The most important finding of this scientific thesis can be deduced that voice commerce in Germany tends to be marginalized and that voice control as a shopping method has not yet become established in Germany. The biggest obstacles to the acceptance of voice commerce are the preferred use of screens, the still limited voice quality, data protection concerns and a lack of trust. Convenience, time savings and automation options can be listed as factors for increasing acceptance.
Since the field of voice commerce is still at the beginning of its development in Germany, further research in this area will be necessary in the future.
1 Einleitung
1.1 Problemkontext
Als etwa zu Beginn der 1990er Jahre die kommerzielle Phase des Internets begonnen hat, ist seitdem auch durchgehend der Umsatz des Online-Handels gestiegen (vgl. Spiegel Online 2016). In Deutschland beträgt der prognostizierte Netto-Online-Umsatz für das Jahr 2019 bereits knapp 58 Milliarden Euro (vgl. Handelsverband Deutschland 2019, S.6). Auch die Digitalisierung schreitet in immer schnelleren und größeren Schritten voran. Diese rasante Entwicklung nimmt auch Einfluss auf den Handel und führt zu tiefgreifenden Veränderungen im E-Commerce. Nach der durch Touchscreen divergenten Interaktion befindet sich der Handel nach Ansicht vieler Experten nun mit dem sprachgesteuerten Einkauf vor der nächsten großen Revolution: dem Voice-Commerce. Bestellungen erfolgen dann nicht mehr über einen Klick auf einen Bestell-Button, sondern werden nebenbei dem Sprachassistenten anvertraut (vgl. Pohlgeers 2019). Bereits heute sind intelligente und digitale Sprachassistenten wie der Google Assistant, Amazon Alexa oder Siri von Apple omnipräsent und in viele Lebensbereiche der Gesellschaft vorgedrungen (vgl. Monitor Deloitte. 2018, S.4). So wird für das Jahr 2020 prognostiziert, dass etwa die Hälfte aller Suchanfragen im Internet über Sprache durchgeführt wird (vgl. Tuzovic/Paluch 2018, S.83). Diese digitalen Sprachassistenten sind in immer mehr Endgeräten installiert, wie bspw. Smartphones, Tablets, intelligenten Lautsprechern oder aber auch in Autos oder Küchengeräten (vgl. Mari 2019, S.2). Besonders die stetig ansteigende Verbreitung mobiler Endgeräte erleichtern ein starkes Wachstum der digitalen Assistenten. So nutzen in Deutschland etwa 81% der Bevölkerung ein Smartphone, auf denen potenziell ein Sprachassistent installiert ist (vgl. Pauly/Kriegeskotte 2019). Aber auch das fortbestehende Wachstum der noch relativ jungen Technologie der intelligenten Lautsprecher, sogenannter Smart Speaker, bei welchen die digitalen Sprachassis- tenten mehr oder weniger das Herzstück sind, tragen zu diesem Anstieg der Sprachassistenten bei. Gegen Ende des Jahres 2018 haben 13% der Deutschen einen Smart Speaker besessen, Tendenz steigend (vgl. Pauly/Kriegeskotte 2019).
Diese sprachgesteuerten Schnittstellen werden dabei nicht nur zur Unterhaltung, den Aufruf von Informationen oder der Steuerung von Geräten genutzt, sondern auch besonders in den USA vermehrt für den sprachgesteuerten Einkauf. So verwenden dort immer mehr namhafte Unternehmen wie Starbucks, Dunkin‘ Donuts oder Domino’s eigene Voice-Commerce-Apps, um Bestellungen via Sprachsteuerung entgegenzunehmen (vgl. Berger/Hess/Rzepka 2020, S.1). Durch die Platzierung dieser digitalen Sprachassistenten in den Küchen, Schlaf- und Wohnzimmern der Verbraucher entsteht ein neuer
Zugang und bietet Unternehmen die Möglichkeit, sich in den Alltag des Kunden zu verankern und eröffnet einen neuen Touchpoint in der Customer Journey für Markenbildung, Marketing und Service (vgl. Heuger 2020). In Europa indes befindet sich dieser Voice-Commerce noch in der Entwicklungsphase, jedoch hat dieser nach einstimmiger Meinung der Experten aus Industrie und Handel durchaus das Potenzial den Handel zu reformieren und einen tiefgreifenden Einfluss auf das Wirtschaftsleben zu nehmen (vgl. Monitor Deloitte. 2018, S.4).
1.2 Ziel der Arbeit
Bekannte Untersuchungen zur Akzeptanz von innovativen Technologien wie Sprachas- sistenten, welche beim Voice-Commerce verwendet werden, beruhen bspw. auf dem Technology Acceptance Model (TAM) von Davis, Bagozzi und Warshaw (vgl. Da- vis/Bagozzi/Wahtshaw 1989, S.985). Jedoch gibt es aktuell nur wenige Untersuchungen, die sich ausdrücklich dem Anwendungsfall des Voice-Commerce in Deutschland widmen. Diese wenigen bestehenden Untersuchungen sind meist qualitativer Natur wie bspw. von Tuzovic und Paluch (2018) oder von Berger, Hess und Rzepka (2020). Quantitative Untersuchungen im Bereich des Voice-Commerce in Deutschland beschränken sich hauptsächlich auf den alleinigen Einsatz von Smart Speakern wie jene von Zaharia und Würfel (2020) oder des Unternehmens dotSource GmbH (2018). Quantitative Untersuchungen für den Einsatz von Sprachassistenten über alle Hardware-Komponenten hinweg sind rar, weshalb an dieser Stelle Forschungsbedarf besteht. Da E-Commerce- Anwendungen mit sprachbasierten Schnittstellen in Deutschland derzeitig noch selten sind, diesen Anwendungen allerdings ein hohes Potential zugesprochen wird, zielt diese Arbeit auf die Messung der Akzeptanz und die Ermittlung von Akzeptanzfaktoren bezüglich des Voice-Commerce in Deutschland. Damit erforscht werden kann, welche Faktoren die Akzeptanz von Sprachassistenten im Voice-Commerce tangieren und inwieweit Voice-Commerce in Deutschland im Allgemeinen akzeptiert ist, wird im Rahmen dieser Masterarbeit eine wissenschaftliche Literaturanalyse sowie eine quantitative empirische Erhebung durchgeführt, die Antworten auf die folgenden beiden Forschungsfragen geben:
Forschungsfrage 1: Wie ausgeprägt ist die Akzeptanz des Voice-Commerce aktuell in Deutschland?
Forschungsfrage 2: Welche Faktoren nehmen Einfluss auf diese Akzeptanz?
1.3 Aufbau der Arbeit
Im ersten Teil dieser wissenschaftlichen Arbeit werden die Forschungsfragen anhand einer Analyse bereits bestehender wissenschaftlicher Literatur beantwortet. Diesbezüglich werden Sammelbände, Monografien, veröffentliche Studien sowie Online-Beiträge durchleuchtet. Der zweite Teil dieser Thesis zielt mit einer quantitativen empirischen Erhebung auf die Beantwortung der Forschungsfragen ab.
Zur hinreichenden Beantwortung der beiden genannten Forschungsfragen bedarf es vorab einiger theoretischer Grundlagen, die in Kapitel zwei erörtert werden. Zunächst erfolgt dabei eine Einordnung der Begriffe E-Commerce und Voice-Commerce. Ferner wird der Begriff des Sprachassistenten erläutert und die technische Entwicklung sowie der Ursprung dieser Technologie skizziert. Abschließend wird die Funktionsweise von Sprachassistenten dargelegt.
Im darauffolgenden Kapitel drei wird der gegenwärtige Zustand von Sprachassistenten ermittelt. Aus diesem Grund werden zunächst die wichtigsten Anbieter dieser Technologie in Deutschland analysiert. Nachfolgend werden Anwendungsfelder beschrieben, welche einen möglichen Einsatz von Sprachassistenten markieren. Des Weiteren werden Möglichkeiten der Umsatzerzielung mit Sprachassistenten geschildert. Hinterher rückt der Voice-Commerce in Deutschland in den Fokus. Dabei werden Hindernisse und Motivationen zur Nutzung von Sprachassistenten im Voice-Commerce behandelt und Prognosen dargelegt. Ferner werden bereits Akzeptanzfaktoren und eine generelle Tendenz zur Akzeptanz von Voice-Commerce in Deutschland diskutiert. Kapitel drei schließt mit einem Ausblick hinsichtlich zukünftiger möglicher Szenarien des Voice-Commerce.
Kapitel vier liefert eine wichtige Grundlage für die anschließende empirische Erhebung. In diesem Kapitel wird der Akzeptanzbegriff untersucht und es werden mögliche Modelle zur Akzeptanzmessung des Voice-Commerce in Deutschland vorgestellt. Das Kapitel schließt mit der Adaption eines Akzeptanzmodells für die durchgeführte empirische Erhebung.
Das fünfte Kapitel schildert eben diese durchgeführte quantitative empirische Erhebung anhand definierter Phasen eines Forschungsablaufs beginnend von der Hypothesenbildung bis schließlich zur Interpretation der Daten.
Kapitel sechs resümiert die wichtigsten Befunde dieser Masterarbeit. Ferner erfolgt eine kritische Auseinandersetzung zu inhaltlichen und methodischen Einschränkungen der vorliegenden Untersuchung.
2 Theoretische Grundlagen
Damit der Frage nachgegangen werden kann, ob und inwieweit der Voice-Commerce in Deutschland akzeptiert ist, bedarf es zuerst der Erarbeitung eines Grundlagenverständnis im Bereich des E-Commerce und der Sprachassistenten für eine bessere Verständlichkeit dieser Thesis. Abschnitt 2.1 erläutert zunächst wichtige Begrifflichkeiten. Anschließend wird in Abschnitt 2.2 die technische Entwicklung der Sprachassistenten dargestellt. Das Kapitel schließt mit der Darlegung der Funktionsweise von Sprachassistenten in Abschnitt 2.3.
2.1 Abgrenzung E-Commerce und Voice-Commerce
Seit Beginn des Internet-Zeitalters Mitte der 1990er Jahre hat sich die Denkweise, wie Kunden Waren und Dienstleistungen kaufen, enorm geändert. Auf diversen E-Com- merce-Plattformen gibt es ein kaum zu überblickendes Angebot an Gütern, welches von einer stetig wachsenden Anzahl unterschiedlicher Unternehmen angeboten wird (vgl. Große Holtforth 2017, S.3). Allein in Deutschland hat der Netto-Online-Umsatz im ECommerce von Waren und Dienstleistungen im Jahr 2018 53,3 Milliarden Euro betragen, was etwa einem Anteil von 10,1% am Umsatzvolumen im gesamtdeutschen Einzelhandel entsprochen hat (vgl. Handelsverband Deutschland 2019, S.4-8). Als E-Commerce wird im Allgemeinen ein Absatzkanal verstanden, „[...] der auf digitalen-vernetzten Handelsplattformen den Abschluss von Kaufverträgen ermöglicht“ (Große Holtforth 2017, S.4). Die über diesen Kanal bezogenen Güter werden nach Kaufabschluss via Paketversand an den Kunden ausgeliefert. Die Bezahlung der Waren kann ortsunabhängig über digitale Bezahlsysteme erfolgen. Die breite Akzeptanz des E-Commerce beim Kunden erschließt sich daraus, dass dem Kunden ein vergrößertes Angebot an Waren offeriert wird bei gleichzeitiger Ungebundenheit von der Lokation der Waren. Aber auch der zeitliche Faktor des E-Commerce stößt bei vielen Konsumenten auf positive Resonanz, da sich die Möglichkeiten des Konsums durch fehlende zeitlich beschränkte Öffnungszeiten stark vergrößern (vgl. Große Holtforth 2017, S.4).
Die stetig voranschreitende digitale Transformation wird auch den E-Commerce verändern. Innovationen wie künstliche Intelligenz oder Big Data1 werden einen nachhaltigen Einfluss auf den E-Commerce nehmen. Eine dieser Innovationen sind Sprachassistenten und den damit verbundenen Voice-Commerce (vgl. Gentsch 2019, S.92). Als Voice- Commerce wird ein Teilbereich des E-Commerce verstanden, welcher den Verbrauchern computergestützte Sprachtechnologien zur Erleichterung, Ausführung und Verarbeitung von Geschäftstransaktionen offeriert (vgl. Kraus/Reibenspiess/Eckhardt 2019, S.3). Im engeren Sinne wird dabei jede Form von geschäftlichen Transaktionen verstanden, die mit Hilfe von Sprachassistenten getätigt werden. Im weiteren Sinne können auch Aktivitäten und Geschäftsprozesse verstanden werden, die direkt oder indirekt beim Zustandekommen einer geschäftlichen Transaktion helfen (vgl. Hörner o.J.). Darunter können auch Aktivitäten wie das Suchen nach einem Produkt, das Anhören von Bewertungen, das Setzen von Produkten auf eine Einkaufsliste, das Verfolgen der Bestellung oder die Kontaktaufnahme mit dem Kundendienst fallen (vgl. Mari/Mandelli/Algesheimer 2020, S.3). Sprachassistenten werden dabei als ein Teilbereich der KI-getriebenen digitalen Fortentwicklung der vergangenen Jahre gesehen. In erster Linie handelt es sich bei dem Begriff des Sprachassistenten um eine Software, „[...] die mit Hilfe von Spracherkennung und -Analyse die Sammlung von Informationen, oder das Abarbeiten von einfachen Aufgaben ermöglicht und das Ergebnis in einer Synthese natürlichsprachiger Antworten ausgibt“ (Kollhorst 2019, S.187). Vereinfacht ausgedrückt, ist ein Sprachassistent eine Software, welche anhand von gesprochenen Anweisungen Handlungen ausführt (vgl. Floyd/Schuster 2017). Zu den bekanntesten Vertretern dieser Technologie zählen Siri von Apple, Alexa von Amazon, der Google Assistant von Google, oder Cortana von Mircrosoft, welche im Verlauf dieser Ausarbeitung noch näher thematisiert werden. Eng verbunden mit dem Begriff des Voice-Commerce ist der Begriff des Conversational-Commerce. Conversational-Commerce ist ebenfalls ein Teilbereich des E-Commerce, der den Austausch von Informationen und die Kommunikation zwischen Unternehmen und Kunden in Form einer Konversation fokussiert (vgl. Kruse Brandâo/Wolfram 2018, S.287). Diese Kommunikation kann via MessengerDienste, Chats auf Webseiten oder Sprachassistenten erfolgen. Der alleinige Einsatz von Sprachassistenten wird als Voice-Commerce bezeichnet. Folglich ist der Voice- Commerce ein Teilbereich des Conversational-Commerce (vgl. Hörner o.J.). Im weiteren Verlauf dieser wissenschaftlichen Arbeit wird primär der Fokus auf dem Voice-Commerce liegen, da dort Sprachassistenten das zentrale Element sind.
2.2 Technische Entwicklung und Ursprung der Sprachassistenten
In seinem Buch schildert Hörner (2019) die historische Entwicklung und den Ursprung von Sprachassistenten, welche im Folgendem näher betrachtet werden.
Digitale Sprachassistenten sind der aktuelle Höhepunkt einer technischen Entwicklung, die bereits im Jahr 1941 mit der Erfindung der Rechenmaschine von Conrad Zuse ihren Lauf nahm. Schon damals stellten sich Experten die Frage, wie der Austausch von Informationen zwischen Menschen und Computern aussehen könnte. Diese Schnittstelle zwischen Menschen und Maschine führt bis heute zu einer permanenten Entwicklung neuer Innovationen (vgl. Hörner 2019, S.2f). Die folgende Abbildung eins visualisiert diese historische Entwicklung der Mensch-Maschine-Schnittstelle.
Abbildung in dieser Leseprobe nicht enthalten
Zu Beginn der Computerentwicklung waren es Lochkarten, mit welchen Daten und Anweisungen übergeben wurden. Hierbei wurde ein bestimmtes Muster in eine Art Papierstreifen gestanzt. Dieses Muster enthielt die zu übertragenen Daten. Der Nachteil dieser Mensch-Maschine-Schnittstelle war, dass nur Computerexperten diese Muster erstellen, analysieren und interpretieren konnten (vgl. Scheil 2019). Diesem Umstand war es auch geschuldet, dass eine hohe Verbreitung von Computern nur mühsam möglich war. Jedoch gab es bereits damals erste Vorstellungen von einer Art Sprachinterface. Gleichwohl erübrigte sich sehr schnell die Realisierung dieser Idee aufgrund der damaligen noch nicht ausgereiften Technologie (vgl. Hörner 2019, S.3).
Die nächste Stufe in der Entwicklung der Mensch-Maschine-Schnittstelle beschreibt Interfaces mit Tastaturen und Bildschirmen. Das Übertragen von Information an den Computer erfolgte über das Tippen auf einer Tastatur, wodurch spezielle Funktionen und Arbeitsanweisungen ausgeführt werden konnten. Durch diesen vereinfachten Informationsaustausch und der Einführung des Microsoft-Betriebssystems MS-DOS fand eine stetige Verbreitung der Computer auch in die Privathaushalte von Computer-Laien statt. Mit der Einführung von Maus und grafischer Benutzeroberfläche als darauffolgenden
Entwicklungsschritt entfiel sogar das Schreiben von Steuerungsworten zur Ausführung bestimmter Funktionen. Mit der Vorstellung von WINDOWS 95 im Jahr 1995 konnte einer großen Masse von Benutzern die Computerbedienung per Handbewegung mit Maus ermöglicht werden (vgl. Hörner 2019, S.4).
Die nächste Phase der Mensch-Maschine-Schnittstelle schildert das Aufkommen von Touchscreens. Bis zu diesem Zeitpunkt beschränkten sich Handbewegungen zur Interaktion mit dem Computer rein auf das Bedienen der Maus zur Manipulation der Elemente auf dem Bildschirm. Mit Hilfe von Touchscreens war es möglich diese Elemente direkt am Bildschirm zu berühren und zu manipulieren. Zusätzlich wurden Gesten zur Steuerung eingeführt wie bspw. das Tippen, das Wischen und das Auseinanderziehen der Finger, welche die Bedienung gegenüber der reinen Maussteuerung nochmals weiter vereinfachten. Diese Technologie gewann im Jahr 2007 mit der Einführung von Apples erstem iPhone massiv an Verbreitung. Im Allgemeinen ermöglichte die Entwicklung von Smartphones das ortsunsabhängige Bedienen von Computern. Mit besonderem Blick auf Sprachassistenten ist es zudem wichtig anzumerken, dass diese Entwicklungsphase dazu führte, dass Computer und die damit verbundene Technik immer natürlicher und zweifelsfreier in das Privatleben und in den Alltag der Gesellschaft einbezogen wurden. Diese Integration intensivieren Sprachassistenten abermals (vgl. Hörner 2019, S.4).
Die anschließende Etappe in der Fortentwicklung der Mensch-Maschine-Schnittstelle erläutert die berührungsfreie Bedienung der Computer aus der Ferne. Als Bedienelement wird hier die natürliche Sprache gesehen. Für die Anwender entfällt körperlicher Kontakt jeglicher Art zur Interaktion mit der Computereinheit. Als Resultat erweitert sich die bereits eingeführte Ortsunabhängigkeit der Computeranwendung. Es ist nun ausreichend, wenn sich der Computer in Rufweite befindet. Daraus folgt, dass die Hände und der Blick des Anwenders von der Interaktion mit der Recheneinheit befreit sind und sich der Nutzer parallel anderen Aktivitäten widmen kann. Neben der Auflösung des substanziellen Kontaktbedarfs ist Sprache die natürlichste Art des Informationsaustauschs. Sprache wird intuitiv von jedem Menschen genutzt, weshalb keinerlei spezielle Fähigkeiten mehr essenziell sind, um mit dem Computer zu interagieren. Die Entwicklung der Sprache zur Kommunikation mit Computern befindet sich bei weitem noch nicht auf dem Niveau echter menschlicher Kommunikation, jedoch gelingt es Sprachassistenten durch stetige Weiterentwicklungen dieser immer näher zu kommen. Durch diese rasante Entwicklung der Sprachassistenten lässt sich schlussfolgern, dass Computer immer stärker in den Alltag des Menschen eindringen. Aus Unternehmenssicht bietet das gerade im Hinblick im Bereich des E-Commerce diverse Möglichkeiten die Kundenbeziehungen zu forcieren, um somit tiefer in den Alltag des Kunden einzudringen. Demgegenüber steht allerdings die Tatsache, dass Menschen in Alltagssituationen in den eigenen vier Wänden weitaus empfindlicher agieren was deplatzierte Kommunikation betrifft. Eine scheinbare Störung der Privatsphäre oder aggressives Marketing wird in den eigen vier Wänden als bedeutend negativ empfunden (vgl. Hörner 2019, S.4f).
Die letzte Phase der Mensch-Maschine-Schnittstelle bezeichnet Brain-Computer-Interfaces. Diese unterstützen eine unmittelbare Informationsübertragung zwischen einem natürlichen Gehirn und einem technischen Schaltkreis. Mit Hilfe des Auslesens von Gedanken bzw. mentalen Anweisungen können sie als neurotechnologische Eingabesysteme eine sprach- und bewegungsunabhängige Maschinensteuerung realisieren. Die Entwicklung dieser Schnittstellen ist durch enorme technologische Herausforderungen gekennzeichnet, weshalb es aktuell lediglich Prototypen dieser Systeme gibt (vgl. Heuer 2015, S.84).
2.3 Funktionsweise von Sprachassistenten
In unserer heutigen Gesellschaft verbindet ein Großteil Sprachassistenten als die in den letzten Jahren stark angewachsene Anzahl an Smart Speakern2. Bei diesen Geräten handelt es sich allerdings streng genommen nur um die Hardware, auf welchen die Software der Sprachassistenten läuft (vgl. Hörner 2019, S.10). Der Einsatz von Sprachassistenten erfordert jedoch ein reibungsloses Zusammenspiel von Software und Hardware. Die Software-Komponenten beim Einsatz von Sprachassistenten beruhen dabei auf vier wichtigen Kerntechnologien, wie Abbildung zwei darstellt.
Abbildung in dieser Leseprobe nicht enthalten
Zunächst wird bei der Nutzung von Sprachassistenten die Spracheingabe des Benutzers anhand von Automated Speech Recognition (ASR) in die reine Textform transformiert. Im nächsten Schritt werden einzelnen Textfragmenten mit Hilfe der Komponente Natural Language Processing (NLP) eine Bedeutung zugeordnet (vgl. Monitor Deloitte. 2018, S.16). Das Ziel dabei ist es den Kontext, den Sinn sowie die Zusammenhänge der Benutzereingaben zu erfassen und Schlüsse über sinnvolle Antworten zu ziehen (vgl. Stanoevska-Slabeva 2018, S.29). Anschließend ist es die Aufgabe des Dialog Managers (DM) die benötigten Schritte zur Beantwortung der Anfrage durchzuführen. Nicht zuletzt veranlasst die Komponente Text-to-Speech (TTS) die klangliche Sprachausgabe der Antwort. Die permanente Fortentwicklung dieser vier eben genannten Kerntechnologien mündet in einer fortlaufenden Verbesserung und Nutzensteigerung. Die Spracherkennung wird durch die Weiterentwicklung der zugrunde liegenden meist Cloud-basierten A.I.3 schrittweise verbessert (vgl. Monitor Deloitte. 2018, S.16).
Für eine wunschgemäße Interaktion von Software und Hardware beim Einsatz von Sprachassistenten ist die dazwischen befindliche Schnittstelle, die beide Komponenten verbindet, von enormer Bedeutung. Diese Schnittstelle befindet sich in der Regel in der Cloud4. Der Vorteil der Cloud-Technologie besteht in der direkten Verfügbarkeit von Neuerungen und Updates. Des Weiteren können große Datenmengen in kürzester Zeit verarbeitet werden. Zum besseren Verständnis skizziert Abbildung drei einen typischen Ablauf einer Suchanfrage und veranschaulicht die Vorteile der Cloud-Technologie.
Abbildung in dieser Leseprobe nicht enthalten
Im ersten Schritt aktiviert der Anwender mit Hilfe des Aktivierungsworts die Online-Ver- bindung (vgl. Monitor Deloitte. 2018, S.17). Beim Amazon Echo oder dem Google Assistant heißen diese „Alexa“ bzw. „Ok, Google“. Zur Erkennung dieses Aktivierungsworts sind in der Hardware entspreche Mikrofone verbaut, die ihre Umgebung permanent aufnehmen (vgl. Hörner 2019, S.10).
Zur weiteren Verifizierung werden die Sprachdaten des Aktivierungswortes übermittelt. Sollte die Verifizierung fehlschlagen, so endet der Prozess bereits im Offline-Modus. Bei gelungener Verifizierung beginnt die Cloud-basierte Verarbeitung der Daten (vgl. Monitor Deloitte. 2018, S.17). Hierbei überträgt der Sprachassistent die nachfolgende Kommunikation als digitale Aufnahme über das Internet zur Serverfarm des vorhandenen Anbieters. Anhand komplexer Techniken und Algorithmen des Maschinenlernens erfolgt in der Cloud die Trennung der Hintergrundgeräusche von der Sprache und eine Umwandlung in computerlesbare Worte. Daraufhin wird mit der Textanalyse und der Verarbeitung zum inhaltlichen Verstehen begonnen. Hierbei liegt der Fokus besonders auf der Trennung von Aufforderungen und Anweisungen sonstiger Textabschnitte, um die konkreten Absichten des Nutzers zu identifizieren (vgl. Hörner 2019, S.11). Nach der Feststellung der konkreten Absichten des Nutzers wird nun der passende Softwareteil zur Beantwortung aufgerufen, indem der Sprachassistent auf eine immense Menge an Informationen aus der Wissensdatenbank zugreift. Abschließend wird dabei der auszugebende Text oder die zu streamende Audio-Datei vom Rechenzentrum des Anbieters aufgerufen und über das Internet an das Gerät des Anwenders vor Ort geladen. Die integrierten Lautsprecher des jeweiligen Geräts spielen nun die übertragenen Daten aus. Allerdings handelt es sich bei dem Feedback des Geräts nicht zwangsläufig um Sprachfeedback. Alternativ kann der Sprachassistent auch bestimmte Dinge steuern wie bspw. das Licht ein- und ausschalten. In diesem Fall werden entsprechende Befehle über die zentrale Sprachassistentensoftware anhand einer bestimmten Schnittstelle an die zu steuernden Geräte weitergeleitet (vgl. Hörner 2019, S.13).
3 Status Quo von Sprachassistenten
Nachdem in Kapitel zwei die theoretischen Grundlagen zum besseren Verständnis dieser Thesis erarbeitet worden sind, liegt der Fokus in diesem Kapitel auf einer näheren Betrachtung des gegenwärtigen Zustands von Sprachassistenten in Deutschland und der Akzeptanz dieser hinsichtlich des Einkaufens von Produkten und Dienstleistungen. Im folgenden Abschnitt 3.1 werden zunächst die großen Anbieter von Sprachassistenten vorgestellt. Anschließend werden in Abschnitt 3.2 Anwendungsfelder aufgelistet. Als nächstes folgen in Abschnitt 3.3 Möglichkeiten der Umsatzerzielung mit Sprachassistenten. Abschnitt 3.4 widmet sich in einer ausführlichen Betrachtung dem Voice-Commerce in Deutschland. Letztendlich stellt Abschnitt 3.5 mögliche zukünftige Entwicklungen des Voice-Commerce vor.
3.1 Anbieter von Sprachassistenten
Abbildung in dieser Leseprobe nicht enthalten
Bei dieser Umfrage handelt es sich um eine bevölkerungsrepräsentative Quotenstichprobe mit einer Anzahl von 1.006 Befragten im Alter von 18 - 69 Jahren aus Deutschland (vgl. SPLENDID RESEARCH GmbH 2019, S.2). Aus dieser Umfrage geht hervor, dass allein anhand der Bekanntheit Alexa von Amazon mit 92% der bekannteste Sprachas- sistent ist, gefolgt vom Google Assistant (77%), Siri von Apple (77%) und Cortana von Microsoft (52%). Alle übrigen Sprachassistenten rangieren mit weitem Abstand hinter den genannten vier. Im Folgenden werden die vier bekanntesten Sprachassistenten in Deutschland näher betrachtet.
3.1.1 Google Assistant
Das Spracherkennungssystem des US-amerikanischen Technologiekonzerns wird mit dem Befehl „OK, Google" gestartet (vgl. Lütters 2017, S.9). Erstmals ist der Google Assistant im Jahr 2016 mit dem Smart Speaker „Google Home" in den USA eingeführt worden. Der Sprachassistent ist in diversen Diensten von Google integriert und ist dementsprechend bereits weit verbreitet. Besonders die Integration dieses digitalen Assistenten in nahezu allen Android-Geräte (vor allem im Bereich der Smartphones) hat einen positiven Effekt auf dessen weite Verbreitung (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.12). Zu Beginn des Jahres 2019 hat die Anzahl an Installationen des Google Assistant weltweit bei über 500 Millionen gelegen (vgl. Kinsella 2020a). Externen Entwicklern bietet der Google Assistant die Möglichkeit, diesen mit neuen Funktionen und Eigenschaften auszubauen. In etwa vergleichbar mit Apps auf dem Smartphone werden Anwendungen beim Google Assistant „Actions" genannt (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.12). Im Gegensatz zu Apps ist es nicht notwendig diese Actions aus einem AppStore herunterzuladen. Es genügt die existierenden Actions direkt anzusprechen (vgl. Kreutzer/Vousoghi 2020, S.45). In Deutschland sind im Dezember 2019 etwa 1000 „Actions" für den Anwender des Google Assistant verfügbar gewesen (vgl. Kinsella 2020a).
3.1.2 Amazon Alexa
Der Sprachassistent des Onlineversandhändlers aus Seattle heißt Alexa. Der Name dient auch als Aktivierungswort jener Sprachsoftware. Die hohe Bekanntheit Amazons auf dem Gebiet der Sprachassistenten ist auf dessen frühen Markeintritt zurückzuführen (vgl. Kreutzer/Vousoghi 2020, S.2). Bereits im Jahr 2015 hat Amazon das Potenzial der digitalen Sprachassistenten erkannt und mit dem Smart Speaker „Amazon Echo" den ersten dieser Art vorgestellt. Hierbei handelt es sich um den ersten Sprachassistenten, der zu Beginn nicht auf einem Smartphone, sondern auf einem Smart Speaker verbreitet worden ist. In Deutschland ist der erste Amazon Echo im Oktober 2016 erschienen (vgl. Peinl 2020, S.144). Im Jahr 2019 haben 59% der Deutschen Smart Speaker-Nutzer einen Amazon Echo besessen und damit ist dieser in Deutschland der meist verwendete
Smart Speaker (vgl. Bialek 2019, S.23). Von Beginn an ist Alexa bei Geräten ohne Bildschirm eingesetzt worden und hat Restriktionen der ausschließlichen Sprachausgabe ausweichen müssen (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.10). Ähnlich wie der Google Assistant erlaubt es Alexa externen Entwicklern eigene Anwendungen zu entwickeln, die „Skills" genannt werden (vgl. Lütters 2017, S.10). Anders als beim Google Assistant ist es allerdings erforderlich die Skills über einen speziellen Voice-App-Store vor der Nutzung zu aktivieren (vgl. Kreutzer/Vousoghi 2020, S.45). Insgesamt hat es im Januar 2020 weltweit über 200.000 Alexa Skills gegeben, von welchen etwa 10.000 allein in Deutschland zur Verfügung stehen (vgl. Kinsella 2020b). Damit weißt Alexa bei weitem das größte Funktionsangebot von allen Sprachassistenten auf (vgl. Scha- ber/Krieger-Lamina/Peissl 2019, S.11).
3.1.3 Apple Siri
Bereits im Oktober 2011 hat Apple seinen persönlichen Sprachassistenten einer breiteren Öffentlichkeit in den USA vorgestellt und ist damit Vorreiter auf dem Gebiet der digitalen Sprachassistenten gewesen (vgl. Peinl 2020, S.144). Siri steht dabei für „Speech Interpretation and Recognition Interface" und wird über die Phrase „Hey Siri" aktiviert. Siri ist ursprünglich für die Nutzung auf dem iPhone entwickelt worden. Erst im Laufe der Zeit sind andere Endgeräte gefolgt, wie bspw. der „Apple HomePod" (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.13f). Für die Firmenpolitik von Apple typisch ist Siri nur auf den eigenen Geräten ansprechbar. Auch Siri lässt eine Schnittstelle zur Entwicklung eigener Anwendungen für Drittanbieter offen. Im Vergleich zum Google Assistant oder Amazon Alexa ist es jedoch unabdingbar, dass diese Anwendungen in eine von Apple vorgeschriebene Kategorie fallen. Als Folge ist die Funktionsvielfalt dieser Anwendungen im Vergleich zur Konkurrenz stark limitiert (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.14).
3.1.4 Microsoft Cortana
Das vorrangig durch das Betriebssystem Windows bekannte Softwareunternehmen Microsoft hat mit der Auslieferung von Windows 10 auch einen eigenen Sprachassistenten namens Cortana auf die Computer der Anwender gebracht. Aufgrund der außergewöhnlichen Stellung von Windows als Betriebssystem auf Computern und Laptops ist auch Cortana verhältnismäßig weit verbreitet. Cortana kann entweder manuell oder durch den Sprachbefehl „Hey Cortana" gestartet werden. Ungeachtet dieser enormen Veröffentlichung von Cortana, wird es aber von den wenigsten Windows 10 Benutzern faktisch genutzt (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.13). Ein Großteil der Anwender erachtet Cortana als aufdringlich und technisch nicht ausgereift (vgl. Lütters 2017, S.10). Cortana steht zwar auch außerhalb von Windows 10 auf Smartphones zur Verfügung, wird dort allerdings verhältnismäßig verschwindend gering genutzt. Auch im Bereich der Smart Speaker spielt Cortana eine untergeordnete Rolle. Seine Stärken spielt Cortana in der Zusammenarbeit mit anderen Microsoft Produkten aus. Besonders auf dem Gebiet kommerzieller Business-Produkte wie bspw. Outlook kann der Sprach- assistent mit seinen Möglichkeiten überzeugen. Dies ist auch der Grund, weshalb Microsoft seinen Fokus auf die Weiterentwicklung Cortanas im Bereich der geschäftlichen Beziehungen legt (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.13). Gegen Ende April 2020 hat Microsoft bekannt gegeben, dass Cortana eingestellt wird und zukünftig in einen Produktivitätsassistenten in Microsoft 365 zu investieren (vgl. König 2020).
3.2 Anwendungsfelder
Digitale Sprachassistenten bieten ein breites Spektrum an verschiedenen möglichen Funktionalitäten. Im Allgemeinen lassen sich diese Funktionalitäten in die Bereiche Information und digitale Assistenz, Unterhaltung, Steuerung und Einkauf unterteilen (vgl. Monitor Deloitte. 2018, S.24). Diese vier Bereiche werden im Folgenden näher betrachtet.
3.2.1 Information und digitale Assistenz
Nach einer internationalen Studie des Beratungsunternehmens Capgemini ist das Suchen von Informationen mit 82% die Funktion, welche von den Anwendern mit großem Abstand am häufigsten genutzt wird (vgl. Buvat et al. 2018, S.6). Besonders beliebt sind dabei Informationen zum Wetter, das Abrufen von Nachrichten über das aktuelle Tagesgeschehen oder das generelle Abrufen von Informationen über die Suchmaschine. Aber auch bei isolierter Betrachtung Deutschlands werden hierzulande Sprachassistenten mit 72% am meisten verwendet, um Fragen bzgl. der Internetsuche, dem Wetter oder Sportereignissen zu beantworten (vgl. Arnold/Hildebrandt/Ta§ 2019, S.26). Betrachtet man nur die Nutzung von Smart Speakern, so äußern 48% der Befragten den Wunsch Informationen zu erhalten (vgl. PwC 2017, S.6).
Neben dem Suchen von Informationen ist auch die Funktion der digitalen Assistenz bei der Nutzung von Sprachassistenten weit verbreitet. Grundsätzlich werden dabei Aufgaben wie das Setzen von Erinnerungen, das Tätigen von Kalendereinträgen oder dem Verfassen von Nachrichten verstanden (vgl. Schaber/Krieger-Lamina/Peissl 2019, 5.19) . In Deutschland haben im Jahr 2019 etwa zwei Drittel der Anwender von Sprachassistenten diese für das Schreiben von Nachrichten genutzt (vgl. SPLENDID RESEARCH GmbH 2019, S.20). Ein Smartphone begünstigt nahezu immer eine Kalenderfunktion oder das Schreiben von Nachrichten über diverse Kanäle. Gewiss können solche Funktionen direkt über das Touch-Display ausgeführt werden, allerdings ermöglichen digitale Sprachassistenten eine angenehme, berührungslose Betätigung dieser Funktionen. Im Gegensatz zu Smart Speakern liegt der Vorteil von auf Smartphones installierten Sprachassistenten darin, dass diese sich direkt der Telefonfunktion und Apps des Smartphones bedienen können (vgl. Schaber/Krieger-Lamina/Peissl 2019, 5.19) .
3.2.2 Unterhaltung
Der Bereich der Unterhaltung kombiniert diverse Anwendungsfälle, wobei der Fokus eindeutig auf dem Abspielen bzw. dem Streamen von Musik liegt. Gut 62% der deutschen Nutzer von Sprachassistenten nutzen diese zum Musikhören (vgl. SPLENDID RESEARCH GmbH 2019, S.20). Dieser Wert stimmt in etwa auch mit der Studie von Buvat et al. (2018) überein. Nach Angaben dieser internationalen Studie nutzen 67% der Befragten ihren Sprachassistenten zum Streamen von Musik oder Videos bzw. dem Einschalten von Radiosendern (vgl. Buvat et al. 2018, S.6). Diese relativ hohen Werte resultieren aus der Tatsache, dass digitale Sprachassistenten über Smart Speaker Einzug in viele Haushalte finden. Da es sich bei diesen Geräten in erster Linie um Lautsprecher handelt, ist das Abspielen von Musik eine naheliegende Anwendung (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.16). Eine weitere Kategorie, die in den Bereich Unterhaltung fällt, ist die der Spiele. Darunter zählen unter anderem etwa Anwendungsfälle wie Witze erzählen, Quizze spielen oder Geschichten und interaktive Hörbücher konsumieren. Mit ca. 33% der Anwender in Deutschland, die digitale Sprachassistenten diesbezüglich nutzen, ist dieser Wert allerdings deutlich geringer als im Verhältnis zum Musikstreaming (vgl. SPLENDID RESEARCH GmbH 2019, S.20).
3.2.3 Steuerung
Unter der Kategorie der Steuerung lassen sich primär Smart-Home-Applikation einordnen. Grundsätzlich beschreibt der Begriff Smart-Home ein „[...] nach innen und außen umfassend vernetztes Wohnumfeld" (Kreutzer/Vousoghi 2020, S.2). Nach außen besteht dabei eine Vernetzung mit dem Internet. Nach innen werden diverse Geräte und Prozesse an das Internet gekoppelt. Die Kombination der verschiedenen Devices erhöht die Anwendungsbereiche und ermöglicht einen ausgeprägteren Komfort. Als Beispiele lassen sich die Steuerung der Helligkeit oder die Anpassung der Zimmertemperatur nennen (vgl. Kreutzer/Vousoghi 2020, S.5). Diese Steuerung des vernetzten Alltags kann auch über digitale Sprachassistenten erfolgen, denn für die meisten Smart-Home Aufgaben sind kurze und prägnante Sprachbefehle ausreichend (vgl. Schaber/Krieger-La- mina/Peissl 2019, S.17). In Deutschland nutzen 18,5% der Anwender Sprachassistenten zur Steuerung ihrer Wohnung (vgl. SPLENDID RESEARCH GmbH 2019, S.20). International gesehen liegt dieser Wert etwas höher. Kumuliert nutzen dort 31% der Anwender Sprachassistenten für Smart-Home-Anwendungen (vgl. Buvat et al. 2018, S.6).
3.2.4 Einkauf
Der Bereich, der für die weiteren Untersuchungen dieser Arbeit am relevantesten ist, ist der des Einkaufs. Digitale Sprachassistenten eröffnen einen niederschwelligen Zutritt dicht an der geläufigen Alltagssprache und sind folglich ein potenziell lukrativer Kommunikationskanal (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.17). Besonders Amazon kann durch dessen Positionierung als gefragter Versandhändler die meisten Funktionen bzgl. des Einkaufs über Sprache anbieten. Bei der Einrichtung der Smart Speaker der Amazon Echo-Reihe werden diese automatisch mit dem Amazon-Konto synchronisiert. Der Großteil der Konsumenten hat dort bereits Zahlungsinformationen hinterlegt, wodurch ein sprachgestützter Einkauf direkt nach dem Aufstellen des Geräts möglich ist (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.18). Der Google Assistant bietet diese Einkaufsmöglichkeit aktuell nur für Nutzer, die auf dem US-amerikanischen Festland leben (vgl. Google 2020). Siri bietet nur ein begrenztes Angebot an Einkaufsmöglichkeiten über Sprachbefehle für US-Bürger an (vgl. Gärtner 2019). In Kooperation mit Amazons Alexa kann Cortana auf dessen Funktionen zugreifen (vgl. Schaber/Krieger-Lamina/Peissl 2019, S.18).
In etwa 35% der von Buvat et al. (2018) befragten internationalen Benutzer haben mit Hilfe eines Sprachassistenten bereits Produkte gekauft. 34% von ihnen haben mindestens einmal Essen bestellt und je 28% haben eine Zahlung vollzogen bzw. sich ein Taxi oder ein Uber gebucht (vgl. Buvat et al. 2018, S.7). In der Studie wird ebenfalls gefragt, bei welchen Waren das stärkste Interesse vorhanden ist, diese via Sprachassistenten zu kaufen. Daraus resultiert, dass besonders Essenslieferdienste (56%) oder Dienstleistungen wie Taxibestellungen (54%) am gefragtesten sind. Unter den physischen Produkten ist das Interesse an Elektronikwaren mit 52% am größten (vgl. Buvat et al. 2018, S.7). Dieses wachsende Interesse führt dazu, dass immer mehr Unternehmen Partnerschaften mit den großen Anbietern von Sprachassistenten eingehen. So können Kunden des Einzelhandelskonzerns Walmart in den USA über den Google Assistant und Apples
Siri mehr als zwei Millionen Artikel über Sprachbefehle bestellen (vgl. Gärtner 2019). In Frankreich ermöglicht der Kosmetikhersteller Sephora über den Google Assistant seinen Kunden das Buchen von Schönheitsdienstleistungen (vgl. Iribarren 2018). Der OnlineLebensmittelhändler Ocado bietet in Großbritannien seiner Kundschaft die Möglichkeit über Alexa das Produktsortiment via Sprache zu bestellen (vgl. London 2017). Dies sind nur einige Beispiele. Wie der gegenwärtige Zustand zum Kaufen von Produkten und Waren via Sprachbefehle in Deutschland aussieht, wird in dem Abschnitt 3.4 ausführlich erörtert.
3.3 Möglichkeiten der Umsatzerzielung
Damit Produkte und Dienstleistungen via Sprachassistenten verkauft werden können, bedarf es der Anpassung an das Nutzerverhalten auf diesen Gerätschaften. Oftmals liegt eine situationsspezifische Nutzung vor. Innerhalb des Kaufprozesses gilt es die Situationen zu ermitteln, in welchen Sprachassistenten hinsichtlich des Kaufvorgangs genutzt werden. In der Regel handelt es sich hierbei um Situationen, in welchen Sprache zum einen unkomplizierter und komfortabler ist oder zum anderen Sprachassistenten einen Funktionsumfang offerieren können, der in anderen Medien nicht oder nur limitiert möglich ist (vgl. Hörner 2019, S.195). Zusätzlich gehört nicht nur der reine Kauf zum Voice- Commerce. Auch Aktionen via Sprache vor, während und nach dem Kauf fallen unter den Bereich des Voice-Commerce (vgl. Narvar 2018, S.14). In seiner Arbeit nennt Hörner (2019) diverse Möglichkeiten zur Umsatzerzielung mit Sprachassistenten, die aktuell bereits möglich sind oder in naher Zukunft möglich sein könnten. Diese Möglichkeiten erörtert Tabelle eins.
Tabelle 1 Möglichkeiten der Umsatzerzielung mit Sprachassistenten
Abbildung in dieser Leseprobe nicht enthalten
3.3.1 Bestellannahme
Die einfachste Möglichkeit zur Umsatzerzielung mit Sprachassistenten ist die Bestellannahme. In diesem Fall weiß der Kunde bereits, was er kaufen möchte. Im Kaufprozess hat der Kunde bereits die Phase der eigentlichen Kaufdurchführung erreicht. Unter solchen Umständen kann der Sprachassistent einen vereinfachten Bestellweg abbilden, welcher die Durchführung der Bestellung erheblich vereinfacht. In diesem Zusammenhang fungiert die Voice-App eines Anbieters einfach nur als zusätzlicher möglicher Bestellweg neben bspw. Webshop, Smartphone-App oder Telefon (vgl. Hörner 2019, S.196f).
3.3.2 Wiederkauf
Für wiederholte Einkäufe können Sprachassistenten ebenfalls nützlich sein. Der Vorteil bei dieser Möglichkeit der Umsatzerzielung ist, dass zum einen der Nutzer des Sprach- assistenten längst Kunde ist und seine Daten wie bspw. Versandadresse oder Zahlart aus früheren Bestellungen vorliegen. Zum anderen schwächt sich die Fehleranfälligkeit und Programmierlogik der Spracherkennung ab, da die Produktauswahl auf frühere Bestellungen des Kunden beschränkt ist. Folglich ist die Nachbestellung für den Kunden über Sprache bequem. Aus Unternehmenssicht lässt sich diese Funktion relativ leicht realisieren und bindet den Kunden noch enger an das Unternehmen (vgl. Hörner 2019, S.201). Besonders Verkäufe im Abo-Modell und Verbrauchsprodukte wie bspw. Haushaltswaren oder Hygieneprodukte sind für solche Vertriebsaktivitäten mittels Sprachassistenten gut geeignet (vgl. Heuger 2020).
3.3.3 Deals und Angebote
Konsumenten sind oftmals über Deals und Angebote gut ansprechbar. Hinsichtlich Sprachassistenten gibt es diverse Situationen, in welchen diese Technologie nützlich sein kann. Zum einen wäre dort die Situation zu nennen, in welcher ein möglicher Käufer die Angebote bereits kennt und Interesse an diesen äußert. Diese Angebote können bspw. in Form von Briefkastenwerbung oder als Deal des Tages im Internet auftreten. Anhand der Voice-Apps der Sprachassistenten erfolgt dann die Bestellabwicklung. Eine andere Situation wäre, dass der mögliche Käufer die Angebote noch nicht kennt, aber bereits weiß, dass solche Angebote vorhanden sind. In diesem Fall informieren die Sprachassistenten über solche tagesaktuellen Angebote und Deals. So kann bspw. ein Webshop-Händler den Deal des Tages über seine Voice-App zur Verfügung stellen und dem Kunden das Suchen via Smartphone ersparen. Eine letzte Situation zur Nutzung von Sprachassistenten bezüglich Deals und Angebote wäre die Eingliederung dieser in eine laufende Kommunikation. Informiert sich bspw. ein Kunde über Schädlinge an Zimmerpflanzen, so kann der Sprachassistent Angebote von Schädlingsbekämpfungsmittel in den Dialog einbauen, in der Hoffnung, dass der Kunde eine impulsive Kaufentscheidung tätigt (vgl. Hörner 2019, S.202f).
3.3.4 Verfügbarkeits- und Preisabfrage
Sofern sich ein Konsument für den Kauf eines Produkts entschieden hat, ist es essenziell zu erfahren, ob das gewünschte Produkt auf Lager ist und was dieses kostet. In Zeiten elektronischer Preisschilder und sich teilweise täglich ändernden Preisen in den Läden kann der Sprachassistent als eine Art Außenstelle des Ladenregals fungieren. Zudem kann die aufwändige Websuche entfallen, wenn es nur darum geht den aktuellen Preis des Produkts zu ermitteln. Im nächsten Schritt gilt es die Verfügbarkeit des gewünschten Produkts mittels Sprachassistenten zu identifizieren. Dies kann dem Kunden teilweise unnötige Wege in den stationären Handel ersparen, nur um zu erfahren, dass das Produkt bereits vergriffen ist. Im Online-Handel kann der Sprachassistent überdies Fragen nach den Lieferzeiten beantworten. Die Fragen nach dem Preis und der Verfügbarkeit eines Produkts zeigen, dass der Kunde ein starkes Interesse an diesem hat. Aus Händlersicht können Sprachassistenten den Kunden zur tatsächlichen Kaufdurchführung animieren, indem Produkte im stationären Laden für ihn reserviert werden oder Produkte in den Online-Warenkorb gelegt werden. Zusätzlich können Verfügbarkeits- und Preisabfragen via Sprachassistenten einen psychologischen Zeitdruck erzeugen, sich schnell entscheiden zu müssen, sofern nur noch wenige Produkte auf Lager sind. Psychologische Studien haben erwiesen, dass somit die Kaufwahrscheinlichkeit steigt (vgl. Hörner 2019, S.203f).
3.3.5 Produkt- und Verkaufsberatung
Die bisherigen Abschnitte thematisieren Situationen, in welchen der Kunde ungefähr weiß, welches Produkt er erwerben möchte. Es gibt allerdings auch Situationen, in welchen der potenzielle Kunde seinen Bedarf kennt, aber er das für ihn richtige Produkt noch nicht ermittelt hat. Für diesen Fall können Produkt- und Verkaufsberatungen dem Kunden im Kaufprozess helfen. Sprachassistenten können dem Kunden bei der Entscheidungsfindung assistieren und zum Kauf führen. Allerdings kann die Beratung mittels Sprachassistenten viele Nachfragen und komplexe Dialoge beanspruchen, damit eine gute Produktempfehlung erteilt werden kann. Bei sehr komplexen Produkten kann es hilfreich sein, den Beratungsprozess auf mehrere Kanäle zu verteilen und nicht ausschließlich per Sprache abzuwickeln. Für diesen Fall kann der Sprachassistent bspw. einen Link zu einer Webseite verschicken, der einen detaillierten Produktvergleich liefert. Aus Sicht des Händlers ist es am Ende des Dialogs wichtig das identifizierte und befürwortete Produkt in den Warenkorb zu legen oder direkt zu bestellen, denn nur so kann eine Produktberatung Umsatz generieren (vgl. Hörner 2019, S.204ff).
3.3.6 Produktinformation
Zeigt ein Kunde bereits Interesse an einem oder mehreren Produkten, benötigt allerdings noch weitere Informationen für eine finale Entscheidung, bieten auch hier Sprachassistenten sinnvolle Ansätze den Kunden in Richtung Kauf zu führen. Oftmals werden nähere Informationen bzgl. diverser Produkteigenschaften gewünscht. Diese Informationen können leicht über Produktdatenblätter widergegeben werden. In anderen Fällen fragen Kunden zunächst nicht direkt nach Produkteigenschaften, sondern erkundigen sich sofort nach dem Produktnutzen und dessen Eignung für bestimmte Zwecke. Die Fragen der Nutzer nach Produkteigenschaften und Produktnutzen identifizieren solche Voice- App-Nutzer, die sich bereits mit einem möglichen Produktkauf auseinandergesetzt haben. Ziel dieser produktbezogenen Fragen ist es, sich nochmal Sicherheit zu verschaffen, ob und welches Produkt am prädestiniertesten ist. Folglich steht der Kaufabschluss unmittelbar bevor. Zur Conversion5 -Optimierung versucht die Voice-App die Kaufwahrscheinlichkeit zu erhöhen. Im besten Fall vermeidet der Sprachassistent nach jeder gegeben Produktinformation den Kunden zu befragen, ob dieser nun das Produkt erwerben möchte. Dies kann zu einem Gegeneffekt führen und eher abschreckend wirken. Vielmehr gilt es in diesen Situationen einen stärkeren Kaufanreiz zu bewirken. So können Sprachassistenten genau dann Rabatte anbieten, wenn der Nutzer bereits mehrere Male nach dem gezielten Produkt gefragt hat (vgl. Hörner 2019, S.207ff).
3.3.7 Merkzettel
Es gibt Situationen, in denen der Kunde nicht immer ein Produkt unverzüglich kaufen möchte. Speziell bei der häufig situativen Nutzung von Sprachassistenten kann es immer wieder vorkommen, dass ein Konsument durch äußere Reize Bedarf nach einem Produkt verspürt, er dieses aber wegen Zeitproblemen oder anderen Umständen momentan nicht bestellen möchte. Sprachassistenten können diesen möglichen Kaufimpuls weiterverwenden, indem sie Merklisten erstellen. Sie gestatten es einem denkbaren Käufer intuitiv Artikel für eine möglicherweise spätere Bestellung vorzusehen, ohne diese geradewegs zu tätigen. Allerdings ist eine schlichte Merkfunktion oft unzureichend.
Vielmehr ist es unerlässlich, dass weiterer Mehrwert und Nutzen für den Kunden gewonnen werden. Merklisten können bspw. den Kunden unterstützen, spezielle Angebote und die darin enthaltenen Produkte nicht zu verpassen oder auf frische Angebote seiner festgehaltenen Produkte hellhörig zu werden (vgl. Hörner 2019, S.210f).
3.3.8 Say and Collect
Ein im E-Commerce bereits gut etabliertes Geschäftsmodell lautet „Click and Collect". Prinzipiell wird dabei die Möglichkeit verstanden, Produkte und Waren im Internet zu ordern und diese dann zu einem späteren Zeitpunkt im stationären Handel abzuholen (vgl. Heinemann 2017, S.277). Entsprechend diesem aus Webshops und Smartphone- Apps bekanntem Konzept besteht auch die Möglichkeit dieses Konzept auf Sprachas- sistenten zu adaptieren. Dieses Konzept trägt den Namen „Say and Collect". Problematisch bei diesem Konzept ist zunächst, dass das aus Webshops bekannte Stöbern und Recherchieren nach Produkten in einem Voice-Onlineshop nicht stattfindet. Das Geschäftsmodell „Say and Collect" ist daher durch andere Kanäle wie bspw. Kataloge oder Postwurfflyer, aus denen sich der Kunde via Voice-App ohne Umweg seinen Einkauf und die erwünschten Offerten zusammenstellt und zur Mitnahme bereitlegen lässt, auszulösen. Für das „Collect", also dem tatsächlichen Einkauf in „Say and Collect", stehen nun zwei Alternativen zur Verfügung. Als erstes können die Produkte über die Voice-App auf der Merkliste im stationären Laden zur Abholung bereitgelegt werden. Die zweite Alternative wäre, dass das Prinzip „Say and Collect" nur für Online-Bestellungen genutzt werden kann. Die gemerkten Produkte werden dann über Sprachbefehle in den Warenkorb des Webshops übertragen. Der Kunde kann dann zu einem späteren Zeitpunkt diesen Warenkorb mit Laptop oder Smartphone bestellen (vgl. Hörner 2019, S.211f).
3.4 Voice Commerce in Deutschland
Zur Einordnung des gegenwärtigen Zustands des Voice-Commerce in Deutschland ist es hilfreich sich die generelle Adoption von Sprachassistenten anzuschauen. In einer repräsentativen Umfrage haben Arnold, Hildebrandt und Ta§ (2019) die allgemeine Adoption von Sprachassistenten in Deutschland ermittelt. Die Ergebnisse werden dabei in der Innovationsadaptionskurve nach Rogers (1962) eingeordnet, wie Abbildung fünf veranschaulicht.
Abbildung in dieser Leseprobe nicht enthalten
In der Theorie nach Rogers (1962) werden die Technologienutzer in verschiedene Typen eingeordnet. Diese sind die Innovators, Early Adopters, Early Majority, Late Majority und Laggards (vgl. Rogers 1962, S.247fff). Die Abbildung fünf verdeutlicht, dass in Deutschland etwa 85% der Bevölkerung einen Sprachassistenten nutzen könnte, ohne zusätzlicher Installation einer App. Im Verhältnis dazu nutzen lediglich 26% einen Sprachassistenten. Folglich ordnen Arnold, Hildebrandt und Ta§ (2019) Sprachassistenten in die Phase der Early Majority ein, wonach die allgemeine Adoption von Sprachassistenten in Deutschland sich noch in einem frühen Stadium befindet (vgl. Arnold/Hildebrandt/Ta§ 2019, S.21). Kennzeichnend für die Mitglieder der Early Majority ist, dass diese nicht die ersten sein wollen, die eine Innovation übernehmen, andererseits auch nicht die letzten, die sich noch an alten Innovationen festklammern (vgl. Roßnagel 2009, S.34). Einen tieferen Einblick zur Nutzung von Sprachassistenten bzgl. des Einkaufens liefert eine idealo-Studie. In dieser Studie der Shopping- und Vergleichsplattform, die explizit Online-Shopper in Deutschland zu ihrem Kaufverhalten befragt hat, geben nur 6% der Befragten an, mit einem Smart-Home-Gerät mit Sprachsteuerung online einzukaufen, wie Abbildung sechs verdeutlicht.
[...]
1 Der Begriff Big Data beschreibt zum einen immer schneller wachsende Datenmengen und zum anderen leistungsstarke IT-Lösungen und Systeme, die den Unternehmen helfen diese Datenmengen zu verarbeiten (vgl. Radtke/Litzel 2019).
2 Als Smart Speaker werden intelligente Lautsprecher bezeichnet, die via Internet mit der Cloud verbunden sind und über eingebaute Mikrofone Sprachbefehle empfangen und verarbeiten können (vgl. Monitor Deloitte. 2018, S.22).
3 A.I. ist das Akronym für Artifical Intelligence. Im Deutschen ist damit die künstliche Intelligenz von Computersystemen gemeint, die es einem Computer ermöglicht, komplexe Aufgaben eigenständig zu lösen (vgl. Lackes o. J.).
4 Unter dem Begriff Cloud-Computing werden IT-Ressourcen bezeichnet, die dynamisch über das Internet oder Intranet zur Verfügung gestellt werden (vgl. Leymann o. J.).
5 Die Conversion (dt. Umwandlung, Konversion) beschreibt im Kontext des Online-Marketings in der Regel die Umwandlung eines Besuchers einer Webseite, also eines Interessenten, zum Käufer bzw. mindestens zum registrierten Benutzer (vgl. OnlineMarketing.de GmbH o. J.).
-
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X.