Die vorliegende Arbeit beschäftigt sich mit der theoretischen Herleitung und experimentellen Überprüfung von Workload-Messung mit einer taktilen Signalentdeckungsaufgabe. Das vorgeschlagene Konzept der Tactile Signal Detection Task (TSDT) verbindet den experimentellen Aufbau der Detection Response Task, einer etablierten Zusatzaufgabe zur Workload-Messung, mit der Signalentdeckungstheorie. Die TSDT stellt eine Signalentdeckungsaufgabe mit taktiler Stimulusmodalität dar.
Als unabhängige Variable wurde der Workload durch eine Variation der Anzahl der Aufgaben manipuliert, die Probanden gleichzeitig mit der TSDT erfüllen mussten.
Es wurde angenommen, dass die Sensitivität sensibel auf die zu erfüllende Aufgabenzahl reagiert. Gleichzeitig sollte überprüft werden, ob die Sensitivität wie angenommen einen starken negativen Zusammenhang mit dem NASA Task Load Index (NASA-TLX) hat, einem etablierten Fragebogen für subjektiven Workload.
Die Untersuchung wurde bei Airbus Defense & Space in Manching im Labor der Abteilung Human Factors Engineering durchgeführt. Die Stichprobe umfasste 25 Personen. Die Befundlage ist konsistent mit beiden Hypothesen und stützt daher die theoretischen Annahmen der Signal Detection Task.
Vor einem praktischen Einsatz der SDT müsste geklärt werden, wie mit Nicht-Antworten auf Vibrationsreize umgegangen werden soll und wie invasiv die SDT als Zusatzaufgabe ist. Weitere Forschung sollte außerdem zeigen, ob die Sensitivität von beeinflussbar durch Kontexteffekten schwankender Aufgabenschwierigkeit ist.
Inhaltsverzeichnis
Zusammenfassung
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
1 Einführung
2 Theoretische Hintergründe
2.1 Workload
2.1.1 Begriffsbestimmung
2.1.2 Zusammenhang mit Leistung
2.1.3 Multiples Ressourcen Modell
2.1.4 Gängige Messmethoden
2.2 Signalentdeckungstheorie
2.2.1 Grundannahmen
2.2.2 Sensitivität und Kriterium
2.2.3 Berechnung
2.3 Konzeption der TSDT
2.4 Hypothesen
3 Methoden
3.1 Voruntersuchungen
3.2 Stichprobe
3.3 Versuchsdesign
3.4 Versuchsablauf
3.4.1 Allgemeiner Ablauf
3.4.2 Tactile Signal Detection Task (TSDT)
3.4.3 Tracking
3.4.4 Systemüberwachung
3.4.5 Kopfrechnen
3.4.6 NASA Task Load Index (TLX)
3.5 Auswertungsmethoden
4 Ergebnisse
4.1 Leistungskennwerte der Primäraufgaben
4.2 Prüfung der Voraussetzungen
4.3 Hypothese A
4.4 Hypothese B
5 Diskussion
5.1 Bedeutung der Ergebnisse
5.1.1 Leistung in den Primäraufgaben
5.1.2 Hypothese A
5.1.3 Differenzierungsfähigkeit der Sensitivität
5.1.4 Hypothese B
5.2 Alternativerklärungen
5.3 Mögliche Konfundierungen
5.3.1 Konzeptuell bedingte Konfundierungen
5.3.2 Methodisch bedingte Konfundierungen
5.4 Limitationen
5.5 Offene Fragen
5.6 Fazit
Literaturverzeichnis
Anhang
Zusammenfassung
Die vorliegende Arbeit beschäftigt sich mit der theoretischen Herleitung und experimentellen Überprüfung von Workload-Messung mit einer taktilen Signalentdeckungsaufgabe. Das vorgeschlagene Konzept der Tactile Signal Detection Task (TSDT) verbindet den experimentellen Aufbau der Detection Response Task, einer etablierten Zusatzaufgabe zur Workload-Messung, mit der Signalentdeckungstheorie. Die TSDT stellt eine Signalentdeckungsaufgabe mit taktiler Stimulusmodalität dar. Dadurch kann sie hinsichtlich Trefferrate (Hit Rate) und Rate an falschen Alarmen (False Alarm Rate) ausgewertet werden. Aus diesen beiden Werten wird der Kennwert der Sensitivität für Signale errechnet. Als unabhängige Variable wurde der Workload durch eine Variation der Anzahl der Aufgaben manipuliert, die Probanden gleichzeitig mit der TSDT erfüllen mussten. Es wurde angenommen, dass die Sensitivität sensibel auf die zu erfüllende Aufgabenzahl reagiert. Gleichzeitig sollte überprüft werden, ob die Sensitivität wie angenommen einen starken negativen Zusammenhang mit dem NASA Task Load Index (NASA-TLX) hat, einem etablierten Fragebogen für subjektiven Workload.
Die Untersuchung wurde bei Airbus Defense & Space in Manching im Labor der Abteilung Human Factors Engineering durchgeführt. Die Stichprobe umfasste 25 Personen. In einer einfaktoriellen ANOVA mit Messwiederholung zeigte sich ein signifikanter Effekt der Workload-Stufe auf die Sensitvität. Post-hoc-Tests zeigten, dass sich die Sensitivität zwischen den niedrigeren Workload-Stufen signifikant unterscheidet, nicht aber zwischen den beiden höchsten Stufen. Der negative Zusammenhang zwischen Sensitivität und NASA- TLX drückt sich in einer Korrelation von r = -.98 aus.
Die Befundlage ist konsistent mit beiden Hypothesen und stützt daher die theoretischen Annahmen der Signal Detection Task. Die Verläufe bilden allerdings nur den Bereich vor der Overload-Schwelle ab. Als Erklärung für die mangelnde Differenzierungsfähigkeit der Sensitivität auf den höheren Workload-Stufen wird ein Stichprobeneffekt diskutiert. Andere Ursachen für Fehler als nur die Fehleinschätzung von Vibrationen in der TSDT bleiben eine Möglichkeit. Weitere mögliche Konfundierungen sowie technische Limitationen werden diskutiert. Vor einem praktischen Einsatz der SDT müsste geklärt werden, wie mit Nicht-Antworten auf Vibrationsreize umgegangen werden soll und wie invasiv die SDT als Zusatzaufgabe ist. Weitere Forschung sollte außerdem zeigen, ob die Sensitivität von Kontexteffekten schwankender Aufgabenschwierigkeit ist.
Abbildungsverzeichnis
1 Angenommenes Verhältnis von Workload und Leistung (Albers, 2012)
2 Adaptiert aus Foley und Matlin (2015)
3 Angenommener Verlauf von Workload, Leistung und Sensitivität
4 Performance-Operator-Characteristic (Krummenacher & Müller, 2017)
5 Performance-Operator-Characteristics. Links oben: Tracking. Rechts oben: Kopfrechnen. Links unten: Systemüberwachung anhand des Anteils richtiger Antworten in %. Rechts unten: Systemüberwachung anhand der Reaktionszeit
6 Versuchsaufbau
7 TDRT-Prototyp mit Arduino-Kasten, Vibrationsplatte und zwei Antwortknöpfen
8 Ansicht der Versuchsleitung zum Überwachen der TSDT-Leistung
9 Platte mit Vibrationsmotor im Nacken einer Probandin
10 Am Joystick angebrachte Knöpfe der TSDT
11 Abbildungen zur Erläuterung der Tracking-Task aus Santiago-Espada, Myer, Latorella und Comstock (2011). Links ist das Zielobjekt nahe der Mitte, rechts ist es zu weit von der Mitte entfernt und sollte mehr Richtung Mitte gesteuert werden
12 Zu überwachende Kontrolleuchten und Skalen in der Systemüberwachungsaufgabe
13 Ansicht der Versuchsleitung während der Kopfrechenaufgabe
14 Workload-Rating mit dem NASA-TLX
15 Sensitivität im Verhältnis zur Workload-Stufe
16 Zusammenhang zwischen NASA-TLX und Sensitivität
17 Sensitivität (pink) und NASA-TLX (blau) im Verhältnis zur Workload- Stufe. Sensitivität ist hier an empirischem Mimimum (-1.0) und Maximum (4.7) skaliert
Tabellenverzeichnis
1 Übersicht gängiger Workload-Messmethoden
2 Fehlerarten in der Signalentdeckungstheorie nach Nett und Frings (2018). .
3 Gleichzeitig zu erfüllende Aufgaben für die jeweiligen Schwierigkeitsstufen.
4 Leistungskennwerte in der Primäraufgabe Tracking
5 Leistungskennwerte in der Primäraufgabe Systemüberwachung
6 Leistungskennwerte in der Primäraufgabe Kopfrechnen
7 Zentrale Kennwerte der TSDT (zur Berechnung siehe Abschnitt 2.2.3). . .
8 Cohen’s d der post-hoc-Vergleiche der Workload-Stufen. Gemäß den Faustregeln nach Cohen (2013) handelt es sich bei Effektstärken größer als 0.2 um kleine Effekte (gelb), größer als 0.5 um mittlere und größer als 0.8 um große Effekte (grün). Der Wert im rot hinterlegten Feld ist kleiner als 0.2 Die Unterschiede zwischen den Stufen mit * sind im paarweisen t-Test- Vergleich signifikant
9 NASA-TLX und Sensitivität im Verhältnis zu den Workload-Stufen
10 Absolute Unterschiede zwischen den Workload-Stufen. Die Unterschiede sind entweder größer (grün), um bis zu einer halben SD kleiner (gelb) oder deutlich kleiner (rot) als die gepoolte SD des jeweiligen Maßes auf den verglichenen Stufen
1 Einführung
Airbus Defense and Space in Manching beschäftigt sich mit dem Design von FlugzeugCockpits, zum Beispiel für das Kampfflugzeug Eurofighter Typhoon. Die Evaluation von Design-Elementen im Flugsimulator ist dabei ein fester Bestandteil des Entwicklungsprozesses. Zur Erfassung der hohen Anforderungen und Beanspruchung der Piloten werden psychologische Konstrukte und Methoden herangezogen. Situationsbewusstsein und mentaler Workload dienen als Gütekriterien für die Bewertung von Cockpit-Designs (Rabl, 2016).
Lange Zeit wurden diese Evaluationen unsystematisch durchgeführt. Allerdings wird seit einigen Jahren der Prozess systematisiert und methodische Standards werden etabliert (Billeriß, Kellerer & Zimmer, 2018). Die Messung von Workload erfolgt in diesem Kontext mit Fragebögen oder durch Leistungsmessung in Zusatzaufgaben (Eichinger, 2011). Diese Methoden gewährleisten allerdings aktuell aus Anwendersicht nicht immer zufriedenstellende Genauigkeit oder Validität, wie in Abschnitt 2.1.4 genauer dargestellt werden wird.
Von diesem Punkt ausgehend wird die Entwicklung und Optimierung von Erfassungsmethoden für Workload ein wichtiges Thema für die Human Factors Forschung bleiben. Im Rahmen dieser Bachelorarbeit soll aus der Integration bestehender Theorien und Methoden ein neues Konzept zur Workload-Messung entwickelt und evaluiert werden.
2 Theoretische Hintergründe
2.1 Workload
Diese Arbeit hat die Entwicklung einer Workload-Messmethode zum Ziel. Daher soll das Konstrukt zunächst definiert und vor dem Hintergrund der deutschsprachigen Begriffsunterscheidung von Belastung und Beanspruchung eingeordnet werden. Zur weiteren theoretischen Fundierung werden der Zusammenhang von Workload und Leistung sowie das Modell der Multiplen Ressourcen dargestellt. Anschließend werden gängige Workload- Messmethoden beschrieben und diskutiert.
2.1.1 Begriffsbestimmung
Im Kontext dieser Arbeit ist nicht von physischem Workload die Rede. Daher werden die Begriffe kognitiver, mentaler oder nur Workload als Synonyme verwendet. In der Literatur finden sich verschiedene Definitionen von Workload mit jeweils unterschiedlichen Schwerpunkten.
Kantowitz und Simsek (2001) (zitiert nach Eichinger, 2011) betonen für zur Erklärung der Entstehung von Workload die Anforderungen der Umwelt an den Probanden. Sie bezeichnen Workload als eine Variable, die zwischen Umweltanforderungen und Fähigkeiten des Probanden mediiert.
Die begriffliche Trennung von Belastung und Beanspruchung ermöglicht eine genauere Einsicht in die Beziehung zwischen Workload und Aufgabenanforderungen. Sie ist spezifisch für den deutschen Sprachraum, aber für ein besseres Verständnis des Konstruktes Workload hilfreich. Psychische Belastung wird nach DIN EN ISO 10075 definiert als die "Gesamtheit aller erfassbaren Einflüsse, die von außen auf den Menschen zukommen und psychisch auf ihn einwirken"(Joiko, Schmauder & Wolff, 2010, p.9). Demgegenüber bezeichnet psychische Beanspruchung "die unmittelbare (nicht langfristige) Auswirkung der psychischen Belastung im Individuum in Abhängigkeit von seinen jeweiligen überdauernden und augenblicklichen Voraussetzungen"(Joiko et al., 2010, p.10). Dabei wird von einer Ursache-Wirkungs-Beziehung zwischen Belastung und Beanspruchung ausgegangen (Eichinger, 2011). Die Anforderungen an den Probanden lösen bei diesem Reaktionen aus.
Gemäß Hart (2006) repräsentiert Workload die Kosten, die ein Proband für das Erfüllen von Anforderungen investieren muss. Diese können interindividuell unterschiedlich ausfallen. Das Konstrukt Workload umfasst also sowohl Aufgabenanforderungen als auch die Interaktion mit individuellen Voraussetzungen. Bei gleichen Anforderungen kann daher bei unterschiedlichen Personen unterschiedlicher Workload gemessen werden.
Gopher und Donchin (1986) (zitiert nach Eichinger, 2011) definieren Workload als hypothetisches Konstrukt, das die Grenzen der Informationsverarbeitungskapazität von Probanden im Kontext der Aufgabenanforderungen umfasst. Workload beschreibt gemäß Wickens (2002) die Relation zwischen benötigten Ressourcen der Aufgabe und der Verfügbarkeit entsprechender Ressourcen (Wickens, 2002). Durch die Annahme der Informationsverarbeitung als zentralen Aspekt der Aufgabenbewältigung ist die Definition von Gopher und Donchin (1986) enger gefasst als die von Wickens (2002). Das RessourcenKonzept umfasst mehr Aspekte, die auf die Aufgabenbewältigung einen Einfluss haben können. Diese werden genauer dargestellt in Abschnitt 2.1.3 bei der Erläuterung von Wickens’ Modell der Multiplen Ressourcen (Wickens, 2002).
Hart und Wickens (1990) definieren Workload als den Aufwand, der zum Erreichen oder Erhalten eines Levels an Leistung in einer Aufgabe benötigt wird. Diese Definition setzt den Schwerpunkt auf den Zusammenhang zwischen Workload und Leistung. Dieser wird in Abschnitt 2.1.2 genauer erörtert, da er zentral für die theoretische Herleitung der vorgeschlagenen Workload-Messmethode ist. Die Definition von Workload nach Hart und Wickens (1990) wird daher als Arbeitsdefinition verwendet.
2.1.2 Zusammenhang mit Leistung
Auf der Basis der Definition von Workload nach Hart und Wickens (1990) wird das in Abbildung 1 dargestellte Verhältnis von Leistung und Workload angenommen. Bei steigender Aufgabenschwierigkeit müssen Probanden mehr Ressourcen investieren, um ihr Leistungsniveau zu halten. Der Punkt, ab dem dies nicht mehr möglich ist, ist als Overload-Schwelle in Abbildung 1 zu sehen. Deren Überschreiten ist durch einen überproportionalen Leistungseinbruch oder die Vernachlässigung geringer priorisierter Aufgaben charakterisiert.
2.1.3 Multiples Ressourcen Modell
Gemäß der Definition nach Hart und Wickens (1990) ist Workload der Aufwand, der investiert wird, um ein bestimmtes Leistungsniveau zu erreichen oder zu halten. Wickens (2002)
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Angenommenes Verhältnis von Workload und Leistung (Albers, 2012).
stellt diesen Aufwand und damit Workload als den Verbrauch von Ressourcen dar. Verschiedene Sinnesmodalitäten und kognitive Prozesse beanspruchen jeweils unterschiedliche Ressourcen. Wenn mehrere Aufgaben gleichzeitig dieselben Ressourcen beanspruchen, entsteht Konkurrenz um diese Ressourcen und damit Interferenz. Ressourcenkonkurrenz fällt geringer aus, wenn die konkurrierenden Aufgaben unterschiedliche Stimulusmodalitäten (visuell vs. taktil) involvieren, unterschiedliche Verarbeitungsstadien (oberflächlich vs. verknüpft) beanspruchen oder auf unterschiedliche Gedächtnisrepräsentationen (verbal vs. räumlich) zugreifen (Krummenacher & Müller, 2017). Bei der Messung von Workload in einem Multi-Task-Szenario ist minimale Interferenz wünschenswert. Damit soll sichergestellt werden, dass die Workload-Messung nicht selbst Workload induziert und die Messung verfälscht.
2.1.4 Gängige Messmethoden
Es existieren verschiedene Methoden, um den Workload von Aufgaben zu messen: physiologische Messungen, die Abfrage subjektiver Einschätzungen und Leistungsmessung. Eine Übersicht liefert Tabelle 1.
Physiologische Methoden, zum Beispiel die Messung der Herzrate oder die Erfassung von Pupillenerweiterungen, erlauben vor allem Schlüsse auf die Wirkung der Aufgabe auf das Individuum. Für die Inhalte dieser Arbeit sind sie nicht weiter relevant. Einen Überblick verschiedener Workload-Messmethoden auf Basis physiologischer Messungen bieten Charles und Nixon (2019).
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 1: Übersicht gängiger Workload-Messmethoden.
Subjektive Ratings
Eine andere Möglichkeit, Workload zu messen, sind subjektive Ratings. Hierbei werden Probanden, Beobachter oder Experten nach ihrer subjektiven Einschätzung des Workloads gefragt. Diese Methode ist weit verbreitet (Hart & Wickens, 1990). Verschiedene Fragebögen unterscheiden sich hinsichtlich ihrer inhaltlichen Schwerpunkte und ihrer Komplexität.
Unidimensionale Ratings wie die Pilot Objective/Subjective Workload Assessment Technique (POSWAT) fragen den Workload als Einschätzung auf einer einzigen Skala ab. Diese Ratings sind einfach zu erheben, aber es gibt keine bindenden Standards für die Gestaltung und die Interrater-Variabilität ist allgemein hoch (Hart & Wickens, 1990). Aus diesen Verfahren können nur wenig diagnostische Informationen gewonnen werden. Hierarchische Ratings wie die Bedford Scale sind ebenfalls einfach zu erheben. Hierbei durchlaufen Rater einen virtuellen Entscheidungsbaum. Dadurch haben die Ergebnisse einen expliziten Bezug, aber liefern trotzdem wenig diagnostische Informationen (Hart & Wickens, 1990). Ratings dieser Art sind außerdem nicht so gut evaluiert wie multdimensionale Ratings. Diese erfassen verschiedene Aspekte von Workload. Subskalen erfassen zum Beispiel den erlebten Zeitdruck, psychologischen Stress oder die Einschätzung der eigenen Leistung (Hart & Wickens, 1990). In der Auswertung wird dann aus den Ratings der Subskalen ein Wert auf einer intervallskalierten eindimensionalen Skala errechnet (Hart & Wickens, 1990). Am weitesten verbreitet ist das Subjective Workload Assessment (SWAT) und der NASA Task Load Index (NASA-TLX).
Ratings können während oder nach der Ausführung der evaluierten Aufgaben erhoben werden. Dabei ist zu beachten, dass Ratings bei gleichzeitiger Durchführung mit der Aufgabe interferieren und die Leistung beeinträchtigen können. Bei einem zu langen Zeitabstand des Ratings zur evaluierten Aufgabe können wiederum Erinnerungseffekte eine Rolle spielen (Hart & Wickens, 1990).
Im Kontext von Evaluationen im Flugsimulator ist der NASA-TLX weit verbreitet (Hart & Staveland, 1988). In diesem Fragebogen erfolgt die Erfassung von Workload über Selbstbericht auf einer kontinuierlichen Skala von niedrig bis hoch (0 bis 100). Der NASA-TLX umfasst die Dimensionen geistige, körperliche und zeitliche Anforderungen, Leistungseinschätzung, Anstrengung und Frustration. Der Fragebogen wird als valide bewertet (Gawron, 2008) und erreichte bei einer Untersuchung von Battiste und Bortolussi (1988) eine Retest-Reliabilität von 0.77. Diesen Bewertungen zufolge ist der NASA-TLX ein etabliertes und nützliches Tool für die Einschätzung von Workload. Untersuchungen brachten aber auch problematische Aspekte hervor.
Selcon, Taylor und Koritsas (1991) stellten bei ihrem Einsatz des NASA-TLX bei Flugsimulationen fest, dass der NASA-TLX sensibel für Aufgabenschwierigkeit war, aber die Erfahrungsunterschiede zwischen Probanden sich nicht niederschlugen. Die Ursache hierfür könnte sein, dass Probanden bei der Beantwortung des Fragebogens nicht zwischen der Aufgabenschwierigkeit und ihrem Workload unterscheiden (Gawron, 2008). Diese Diskrepanz wird problematisch, wenn individuelle Beanspruchung von Interesse und die Aufgabenschwierigkeit bekannt ist oder manipuliert wird. In diesem Fall wäre der Informationsgewinn aus dem NASA-TLX zum Workload nicht ausreichend.
Beim NASA-TLX ist es wie in jedem Fragebogen möglich, dass die Formulierungen nicht von allen Probanden gleich interpretiert werden. Ebenfalls problematisch sein können Antworttendenzen zur Mitte, zu Extremen oder zur positiven Selbstdarstellung (Schmidt-Atzert & Amelang, 2012). Weitere methodologische Probleme des NASA-TLX sind Anker- und Kontexteffekte. Ankereffekte entstehen, wenn Probanden den Umfang der gegebenen Skalen nicht in vollem Maß nutzen und ihre Angaben an ihren Erfahrungen innerhalb des experimentellen Setups ausrichten (Hart, 2006). Kontexteffekte stellen die Verzerrung des Ratings einer Aufgabe dar, die entsteht, wenn Probanden kurz zuvor eine signifikant leichtere oder schwierigere Aufgabe durchgeführt haben (Hart, 2006).
Leistungsmessung
Die Einschätzung durch objektive Leistungsmessung soll direktere Einsicht in den Workload eines Probanden ermöglichen und die kognitive Verarbeitung umgehen, die vor der Beantwortung von Fragebögen stattfindet. Gleichzeitig muss aber der in Abschnitt 2.1.2 dargelegte und in Abbildung 1 visualisierte Zusammenhang von Workload und Leistung beachtet werden.
Bei primärer Leistungsmessung wird die Leistung in der Aufgabe gemessen, deren Workload von Interesse ist. Damit kann vor allem auf die Schwierigkeit von Aufgaben geschlossen und die Overload-Schwelle verortet werden. Bei sekundärer Leistungsmessung wird die Leistung in einer geringer priorisierten Zusatzaufgabe betrachtet. Eine solche Zusatzaufgabe kann zum Beispiel eine Signalentdeckungsaufgabe oder Zeitschätzung sein. Wenn der Workload einer Primäraufgabe zunimmt, müssen mehr Ressourcen in das Halten des Leistungsniveaus investiert werden. Diese Ressourcen stehen bei der Bearbeitung einer geringer priorisierten Zusatzaufgabe dann nicht mehr zur Verfügung. Es wird also angenommen, dass die Leistung in der Zusatzaufgabe abnimmt, wenn der Workload der Primäraufgabe zunimmt.
Die Detection Response Task (DRT) ist eine solche Zusatzaufgabe für die Workload- messung, die im Flugsimulator parallel zur relevanten Hauptaufgabe durchgeführt werden kann. Probanden müssen einen Knopf drücken, wenn sie einen bestimmten Reiz wahrnehmen. Mit Reaktionszeit (Reaction Time RT) und Trefferraten (Hit Rate HR) wird auf Workload-Unterschiede zwischen Bedingungen geschlossen. Diese Konzeption (auch Peripheral Detection Task, PDT, genannt) ist gut in verkehrspsychologischer Forschung etabliert (Bruyas & Dumont, 2013; Conti, Dlugosch, Vilimek, Keinath & Bengler, 2012; Engström, Âberg, Johansson & Hammarbäck, 2005; Hsieh, Seaman & Young, 2015). Die DRT ist als Workload-Messmethode mit visueller, auditiver oder taktiler Stimulusmo- dalität einsetzbar. Die Interpretation ihrer Ergebnisse kann sich jedoch problematisch gestalten.
Mit den Leistungsmaßen Reaktionszeit und Trefferrate kann nur unvollständig auf die Ursachen von Veränderungen in der Leistung geschlossen werden. Das Verhalten von Probanden in Form von strategischer Aufmerksamkeitsallokation kann Einfluss auf ihre Leistung in einer DRT haben, ohne dass eine tatsächliche Veränderung des Workloads stattgefunden hat. Abbildung 1 zeigt den theoretisch angenommenen Verlauf von Workload und Leistung. In diesem Verlauf wird angenommen, dass die Leistung bei steigendem Workload vor der Overload-Schwelle stagniert. Beim Vergleich von zwei Design-Alternativen, die sich in ihrem Workload unterscheiden, ist dies problematisch. Bei größerem Workload muss mehr Anstrengung investiert werden, um das gleiche Leistungsniveau zu halten. Workload- Messung, die diesen Unterschied nicht reflektieren kann, ist für diesen Anwendungsfall unzureichend. Zudem ist in einer DRT problematisch, dass die Trefferrate nur einen Teil des Probandenverhaltens widerspiegelt, da das Nicht-Drücken eines Knopfes nicht als aktive Reaktion bewertet werden kann. Durch absichtliches durchgehendes Knopfdrücken könnte eine Trefferrate von 100% erreicht werden, weil kein Reiz verpasst wird. Damit ist die Trefferrate als Leistungsmaß beim Erkennen von Reizen leicht manipulierbar.
Die Anwendung subjektiver Ratings oder objektiver Leistungsmaße zur Workload- messung kann problematisch sein. Deshalb wird ein neues Konzept zur Workloadmessung vorgeschlagen, dargestellt in Abschnitt 2.3. In die etablierte Methode der DRT soll die Signalentdeckungstheorie integriert werden, um deren bisherige Schwachpunkte auszugleichen.
2.2 Signalentdeckungstheorie
Im Folgenden soll die Signalentdeckungstheorie als allgemeines Modell erläutert werden. Anschließend wird in Abschnitt 2.3 dargestellt, welche Aspekte der Theorie für die Workload-Messung relevant sind.
2.2.1 Grundannahmen
Die Signalentdeckungstheorie ist ein allgemeines Modell der Entscheidungsbildung. Es kann genutzt werden, um das Antwortverhalten von Menschen oder Detektionssystemen zu beurteilen. Es wird die Fähigkeit erfasst, zwischen einem Signal und einem Distraktor zu unterscheiden. Der Distraktor kann zum Beispiel eine andere Art Signal oder Hintergrundrauschen sein. Ein Beobachter oder Detektionssystem muss sich entweder für das Vorhandensein oder die Abwesenheit eines Signals zum Beispiel durch das Drücken des richtigen Knopfes entscheiden. Daraus ergeben sich vier Möglichkeiten für Fehler und richtige Antworten. Wenn ein Beobachter angibt, ein Signal wahrgenommen zu haben und tatsächlich eines präsentiert wurde, handelt es sich um einen Treffer (Hit). War es aber ein Distraktor, handelt es sich um einen falschen Alarm (False Alarm). Wenn ein Signal vorhanden war, der Beobachter aber angibt, keines wahrgenommen zu haben, handelt es sich um einen Verpasser (Miss). Wenn ein Distraktor korrekt als solcher identifiziert wird, handelt es sich um eine korrekte Zurückweisung (Correct Rejection). Eine Übersicht über die Fehlerarten liefert Tabelle 2. Zugunsten besserer Lesbarkeit der Abkürzungen werden in dieser Arbeit die etablierten englischen Begriffe verwendet.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 2: Fehlerarten in der Signalentdeckungstheorie nach Nett und Frings (2018).
Die Signalentdeckungstheorie und die daraus abgeleitete Unterscheidung der Fehlerarten findet in vielen Bereichen Anwendung. Signal und Distraktor können verschiedene Formen annehmen und sind jeweils einer angemessenen Reaktion zugeordnet. Ein Beispiel ist die Flughafensicherheit. Ihre Aufgabe ist es, in der Gepäckkontrolle Gegenstände festzustellen, von denen eine Gefahr ausgehen könnte, zum Beispiel Waffen oder Sprengstoff. Ein gefährlicher Gegenstand wäre hier das Signal, ungefährliches Gepäck stellt einen Distraktor dar. Auf jedes Gepäckstück kann entweder mit Gegenmaßnahmen zur Beseitigung der Gefahr oder einer Passiererlaubnis reagiert werden. In diesem Kontext sind zwei Arten von Fehlern möglich: ein verpasster gefährlicher Gegenstand (Miss) oder unschuldig festgehaltene Reisende (False Alarm).
2.2.2 Sensitivität und Kriterium
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Adaptiert aus Foley und Matlin (2015).
Die Signalentdeckungstheorie postuliert zwei zentrale Determinanten für das Antwortverhalten: Die Sensitivität für Signale und die Entscheidungsstrategie (auch Antworttendenz genannt) (Foley & Matlin, 2015). Die Sensitivität bezeichnet die Fähigkeit des Probanden, zwischen Signal und Distraktor zu unterscheiden. Dabei spielen sowohl die objektiven Eigenschaften des Stimulus, als auch die Fähigkeit des Probanden zu deren Wahrnehmung eine Rolle. Im Beispiel der Flughafensicherheit wäre dies die Fähigkeit, zwischen gefährlichen und nicht gefährlichen Gegenständen auf den Röntgenbildern der Gepäckkontrollen zu unterscheiden.
Die Antworttendenz äußert sich in einem individuell und situativ festgelegten Entscheidungskriterium. Signale werden als solche identifiziert, je nachdem ob sie die Schwelle des Entscheidungskriteriums über- oder unterschreiten. Ein strengeres Kriterium beugt False Alarms vor, erhöht aber das Risiko für Misses. Bei einem liberaleren Kriterium drehen sich diese Tendenzen um. Die Konsequenzen von Misses und False Alarms müssen gegeneinander abgewogen werden. Das Kriterium wird dann so festgelegt, dass die Wahrscheinlichkeit für die ungünstigere Fehlerart sinkt. Bei der Gepäckkontrolle wird ein eher strengeres Kriterium festgelegt, um keine möglichen Gefahren zu verpassen (Miss). Unschuldig festgehaltene Reisende (False Alarm) werden hierbei in Kauf genommen.
In Abbildung 2 ist den Antworten auf Signal und Distraktor je eine Wahrscheinlichkeitsverteilung zugeordnet. Je höher der Wert auf der y-Achse, desto höher ist die Wahrscheinlichkeit, dass der Proband den entsprechenden Wert auf der x-Achse wahrnimmt. Da der Unterschied zwischen Signal und Distraktor gering ist, überlappen sich die Antwortfunktionen. Die Unterscheidbarkeit von Signal und Distraktor (Sensitivität) drückt sich in dem Abstand der Hochpunkte der Verteilungen aus. Das Kriterium legt hier fest, ab welchem Punkt ein Stimulus als ein Signal oder als ein Distraktor identifiziert wird. Im Bereich der Überlappung der Kurven sind beide Antworten möglich und es kann zu Verwechslungen von Signal und Distraktor kommen.
2.2.3 Berechnung
Die in Abschnitt 2.2.2 beschriebenen Kennwerte Sensitivität und Kriterium errechnen sich aus der Trefferrate (Hit Rate HR) und der Rate an falschen Alarmen (False Alarm Rate FAR). Für die Berechnung werden folgende Formeln verwendet (Macmillan, 2002):
Abbildung in dieser Leseprobe nicht enthalten
Je besser die Detektionsfähigkeit des Probanden, desto höher fällt der Wert der Sen- sitivität aus. Im Fall von fehlerlosem Antwortverhalten (0% FAR oder 100% HR) würde die Sensitivität gemäß dieser Berechnung unendliche Werte erreichen. Um dies zu verhindern, wird die Methode der log-linearen Transformation (Hautus, 1995) angewendet: Zu der Anzahl Hits, Misses, False Alarms und Correct Rejections wird jeweils 0.5 addiert.
Der Parameter c steht in Relation zur Position der in Abbildung 2 dargestellten Kriteriumsschwelle. Bei Verwendung der dargestellten Formel resultiert ein liberaleres Entscheidungskriterium in höheren Werten des Parameters, während ein konservatives Kriterium niedrigere Werte zur Folge hat. Bei einem liberalen Entscheidungskriterium sinkt die Wahrscheinlichkeit für Misses, aber steigt die Wahrscheinlichkeit für False Alarms.
2.3 Konzeption der TSDT
In Abschnitt 2.1.4 wurde beschrieben, dass die Verwertung der Ergebnisse aktuell gängiger Workload-Messmethoden, insbesondere der DRT und des NASA-TLX, problematisch sein kann. Deshalb wird eine neue Konzeption zur Messung von Workload vorgeschlagen: die Signal Detection Task (SDT). Das theoretische Framework der Signalentdeckungstheorie wird in das Konzept der DRT integriert. Die SDT nutzt nicht die Reaktionszeit als Workload-Maß, sondern die Sensitivität in der Signalentdeckung.
Putri, Yang und Kim (2016) haben eine starke negative Korrelation (r = -.96) zwischen subjektivem kognitivem Workload (erhoben mit dem NASA-TLX) und der Sensitivität in der Signalentdeckung gefunden. Dieses Ergebnis ist der Ausgangspunkt für die Überlegungen zum Zusammenhang von Sensitivität und Workload. Je größer der Workload des Probanden ist, desto weniger Ressourcen stehen ihnen zur Verfügung, Signale in der Peripherie wahrzunehmen und darauf zu reagieren. Auf dieser Annahme baute bereits die DRT auf (Conti et al., 2012). Diese Ressourcen werden nun als Sensitivität in der Signalentdeckung operationalisiert. Besteht ein solcher Zusammenhang, wird eine negative Korrelation zwischen Workload und Sensitivität erwartet, schematisch in Abbildung 3 dargestellt. Kann dieser Verlauf empirisch bestätigt werden, könnte von Veränderungen in der Sensitivität auf Veränderungen im Workload geschlossen werden. Sensitivität als Workload-Maß ist außerdem robust gegenüber den zentralen Problemen subjektiver Ratings: Gedächtnis- und Ankereffekte, sowie Tendenzen zur Mitte oder zu Extremen. Daher hat die Sensitivität in der Signalentdeckung das Potenzial, mit weiterer Forschungsarbeit als Workload-Maß validiert zu werden.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3: Angenommener Verlauf von Workload, Leistung und Sensitivität.
Die Tactile Signal Detection Task (TSDT) ist eine Signalentdeckungsaufgabe mit taktiler Modalität. Im Signalentdeckungsparadigma gibt es zwei verschiedene Stimuli (Signal und Distraktor) und jeweils eine dazugehörige Reaktion. Es müssen also zwei Arten von Vibrationsreizen unterschieden werden (für eine genauere Aufgabenbeschreibung siehe Abschnitt 3.4.2). Es wird angenommen, dass bei steigendem Workload (operationalisiert als die Anzahl der gleichzeitig zu erfüllenden Aufgaben) die Fähigkeit zur Erkennung des Unterschiedes dieser Vibrationsreize in der TSDT abnimmt. Kann diese Annahme (visua- lisiert in Abbildung 3) empirisch gestützt werden, erscheint ein Schluss von der Sensiti- vität auf den Workload plausibel. Damit eine Veränderung der Sensitivität beobachtbar wird, muss die Signalentdeckungsaufgabe schwierig genug sein, sodass sie bei steigender Schwierigkeit der Primäraufgabe nicht mehr mit 100% Genauigkeit erfüllt werden kann.
Gleichzeitig darf die Aufgabe aber nicht zu schwierig sein und darf nicht zu stark mit Primäraufgaben interferieren, um nicht selbst Workload zu induzieren (zur Interferenz von Aufgaben siehe Abschnitt 2.1.3).
Für die Etablierung der SDT als Workload-Maß ist die Sicherung der Validität der erste Schritt. Konstruktvalidität besteht dann, wenn der Rückschluss von den Testergebnissen auf das relevante Merkmal wissenschaftlich fundiert ist (Moosbrugger & Kelava, 2013). Diese Bachelorarbeit hat zum Ziel, die theoretischen Annahmen der TSDT empirisch zu stützen. Konvergente Konstruktvalidität kann festgestellt werden, wenn Übereinstimmung mit einem anderen Test besteht, der das gleiche Merkmal misst (Moosbrugger & Kelava, 2013), in diesem Fall der NASA-TLX.
2.4 Hypothesen
Wie in Abschnitt 2.3 beschrieben, soll überprüft werden, ob die Sensitivität als Workload- Maß nutzbar gemacht werden kann. Hierfür sollte sie sensibel auf Veränderungen in Workload reagieren. Dieser wird als Aufgabenanzahl operationalisiert.
Hypothese A: Die Anzahl der gleichzeitig zu bearbeitenden Aufgaben beeinflusst die Sensitivität in der TSDT negativ.
Um die in Abbildung 3 dargestellte Annahme zu stützen, wird das Verhältnis der Senstivität mit einem etablierten Workload-Maß (NASA-TLX) untersucht.
Hypothese B: Es besteht ein negativer Zusammenhang zwischen dem subjektivwahrgenommenen Workload (gemessen mit dem NASA-TLX) und der Sensitivität in der TSDT.
3 Methoden
Probanden erfüllten verschiedene Aufgabenkombinationen. Dabei musste immer nebenher die TSDT absolviert und am Ende jedes Blockes der NASA-TLX ausgefüllt werden. In der TSDT sollten zwei verschiedene Vibrationsreize durch Knopfdruck korrekt identifiziert werden. Beim Tracking sollten Probanden mit dem Joystick ein Zielobjekt verfolgen. In der Systemüberwachung mussten Probanden auf aufblinkende Kontrolleuchten oder aus einem erlaubten Bereich ausbrechende Skalen mit passendem Knopfdruck reagieren. Bei der Kopfrechenaufgabe mussten Probanden von einer gehörten dreistelligen Zahl einen gegebenen einstelligen Subtrahenden abziehen und das Ergebnis laut aussprechen.
Im folgenden Abschnitt sollen die Erkenntnisse aus Voruntersuchungen, Stichprobeneigenschaften, Versuchsdesign und -ablauf dargestellt werden.
3.1 Voruntersuchungen
Es wurde eine Reihe Voruntersuchungen durchgeführt, um die theoretischen Annahmen und Hypothesen zu spezifizieren. Während diesen Untersuchungen wurden Erkenntnisse gewonnen, die in die Konstruktion des Experiments eingeflossen sind.
Mithilfe der Multi Attribute Task Battery (MATB-II) der NASA (Santiago-Espada, Myer, Latorella & Comstock, 2011) wurden die Tracking- und die Systemüberwachungsaufgabe sowie die Workload-Ratings mit dem NASA-TLX gesteuert. Mithilfe eines XML- Skripts wurde der MATB-II Software übergeben, wann welche Aufgaben zu erfüllen waren, wann Ratings abgegeben und wann welche Stimuli präsentiert werden sollten. Die Steuerung der TSDT erfolgte über eine selbst programmierte Software der Abteilung Human Factors Engineering. Die Kopfrechenaufgabe wurde umgesetzt in der freien Software PsychoPy (Peirce, 2007, 2008).
Innerhalb dieser technischen Rahmenbedingungen wurden auf Basis von Voruntersuchungen Parameter festgelegt, die die Schwierigkeit der Aufgaben im Einzelnen wie auch in der Kombination beeinflussten. Im Einzelnen sollten die Aufgaben bei durschnittli- cher Konzentrationsfähigkeit gut und gegebenenfalls fehlerlos zu erfüllen sein, während in Kombination mit zunehmender Aufgabenzahl die Schwierigkeit ansteigen sollte.
Um geeignete Vibrationsdauern und -intensitäten für die TSDT zu identifizieren, wurden psychophysische Paradigmen genutzt. Mit der sogenannten Herstellungsmethode ad- justierte ein Proband die Intensität oder Dauer zweier kurz aufeinanderfolgender Vibrationen so lange, bis ihm der Unterschied gut erkennbar erschien (Foley & Matlin, 2015). Dabei musste auch vermieden werden, dass Unbehagen ausgelöst wird, was bei zu langen Vibrationsdauern oder zu starker Vibrationsintensität der Fall sein kann. Ein anderer Proband sollte die Unterschiede zwischen den mit der Herstellungsmethode generierten Vibrationsreizen bei aufeinanderfolgender Präsentation zu 100 % korrekt erkennen. Dieses Paradigma ist in psychophysischer Literatur als Konstanzmethode bekannt (Kühner, 2014).
Für die Tracking-Aufgabe konnten zwei Parameter festgelegt werden: die Geschwindigkeit des Zielobjekts sowie die Latenz der Joystick-Steuerung. Aus den Voruntersuchungen wurden Werte bestimmt, die in einer mittleren Schwierigkeit resultierten. Die Systemüberwachungsaufgabe besteht aus zwei Teilaufgaben: die Reaktion auf Kontrolleuchten und die Überwachung der Skalen. Es ist anzunehmen, dass unterschiedliche kognitive Prozesse bei der Bearbeitung der Teilaufgaben aktiv sind. Mithilfe der Voruntersuchungen konnte aber festgestellt werden, dass sich diese Teilaufgaben nicht signifikant in ihrem Workload unterscheiden und somit als eine Aufgabe behandelt werden können. Für die Schwierigkeit der Kopfrechenaufgabe machte es einen großen Unterschied, ob sich bei der Subtraktion die Zehnerstelle des Minuenden veränderte oder nicht. Mit fünf als Subtrahend trat dies bei der Hälfte der zufallsgenerierten Minuenden auf. Um die Schwierigkeit balanciert zu halten, wurde fünf als Subtrahend gewählt. Für Systemüberwachung, Kopfrechnen und die TSDT wurden aus den Voruntersuchungen Inter-Stimulus-Intervalle abgeleitet. Für jede Aufgabe wurden Mittelwert und Standardabweichung für eine randomisierte Auswahl eines Zeitraumes festgelegt, zum Beispiel M = 3s und SD = 1s für die TSDT. Damit erreichten die Aufgaben eine jeweils angemessene Schwierigkeit. Gleichzeitig wurde durch die Randomisierung sichergestellt, dass die gleichzeitige Präsentation von Stimuli zweier Aufgaben fast nie vorkam.
In Abschnitt 2.3 wurde dargelegt, dass die TSDT als Nebenaufgabe nicht selbst Workload induzieren sollte. Mithilfe von Performance-Operator-Characteristics (POCs) lässt sich darstellen, in welchem Ausmaß Primäraufgabe und TSDT um dieselben Ressourcen konkurrieren. Abbildung 4 zeigt schematisch, wie die Kosten der gleichzeitigen Ausführung von Primäraufgabe und TSDT in einer solchen POC erkennbar sind. Die errechneten Performance-Operator-Characteristics sind in Abbildung 5 zu sehen. Auf der x-Achse ist die Leistung in der TSDT als Anteil der korrekt beantworteten Stimuli (CR) in % oder als Reaktionszeit (RT) dargestellt. Auf der y-Achse ist das Leistungsmaß dargestellt, dass für die jeweilige Aufgabe relevant ist (mittlerer Tracking-Offset, Anteil richtiger Antworten bei Systemüberwachung und Kopfrechnen, Reaktionszeit bei der Systemüberwachung). Aufgrund der vorliegenden Ergebnisse wurde davon ausgegangen, dass die Interferenz der TSDT mit den Primäraufgaben ausreichend gering ist.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4: Performance-Operator-Characteristic (Krummenacher & Müller, 2017).
Während den Voruntersuchungen wurde der NASA-TLX erhoben. Viele mögliche Aufgabenkombinationen wurden auf diese Weise bewertet. Aus diesen Daten wurden die Aufgabenkombinationen für die vier Schwierigkeitsstufen des Versuchsplans abgeleitet (hierzu siehe Abschnitt 3.3).
In den Voruntersuchungen waren während den Experimentalphasen Leistungsverbesserungen beobachtbar. Dies konnte durch einen Übungseffekt erklärt werden: Übung und Erfahrung mit einer Aufgabe kann den Workload dieser reduzieren (Patten, Kircher, Öst- lund, Nilsson & Svenson, 2006). Mündliche Berichte von Probanden deuteten darauf hin, dass es auch während der Experimentalphase zu Verbesserungen bei der Koordination mehrerer Aufgaben kam. Sie erklärten dies durch Strategiebildung und ein zunehmend effizienter Einsatz dieser Strategien. Deshalb wurden im finalen Trainingskonzept auch Aufgabenkombinationen geübt, die nicht in der Experimentalphase vorkamen. So konnten entsprechende Strategien vorab etabliert und übungsbedingte Leistungsverbesserungen während der Experimentalphase verhindert werden.
Gemäß Hautus (1995) wird die Erfassung des Sensitivitätsparameters bei steigender
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 5: Performance-Operator-Characteristics. Links oben: Tracking. Rechts oben: Kopfrechnen. Links unten: Systemüberwachung anhand des Anteils richtiger Antworten in %. Rechts unten: Systemüberwachung anhand der Reaktionszeit.
Trial-Anzahl genauer. Ungefähr 40 TSDT-Trials pro fünfminütigem Block wurden vor diesem Hintergrund als ausreichend bewertet. Voruntersuchungen mit verschieden langen Blöcken zeigten, dass fünf Minuten pro Block angemessen sind. Längere Blöcke von zum Beispiel sechs Minuten hatten Konzentrationsabfälle zur Folge und hätten die insgesamte Dauer des Experiments zu sehr erhöht. Insgesamt zweieinhalb Stunden wurde von Probanden in verbalem Feedback als zumutbar bewertet. Trotzdem zeigte sich bei vielen in der letzten halben Stunde eine erhöhte Erschöpfung. Um unmittelbarer Erschöpfung vorzubeugen, wurde die randomisierte Reihenfolge der Schwierigkeitsstufen auf ungünstige Abfolgen kontrolliert. In Blöcken der niedrigsten Schwierigkeit, die direkt auf einen Block mit der höchsten Schwierigkeit folgten, machten sich Leistungseinbußen in der TSDT bemerkbar. Die Reihenfolge wurde entsprechend angepasst.
3.2 Stichprobe
Die Stichprobe umfasste 25 Probanden, davon 19 männlich und 6 weiblich. Der Altersdurchschnitt lag bei 36.6 Jahren (SD = 12.37). Die Probandenrekrutierung erfolgte unter Mitarbeitern bei Airbus Defense and Space sowie unter der Versuchsleitung bekannten Studenten. Fast alle Probanden hatten einen akademischen Bildungshintergrund. Nach erfolgter Einweisung in den Versuch unterschrieben die Probanden eine Einwilligung zur Teilnahme und zur Verarbeitung der aufgezeichneten Daten in anonymisierter Form.
3.3 Versuchsdesign
Als unabhängige Variable wurde die Anzahl der Aufgaben manipuliert. Aus Voruntersuchungen wurden vier Schwierigkeitsstufen festgelegt, die aus Kombinationen von bis zu vier Aufgaben bestehen. Tabelle 3 zeigt die Aufgaben, die für die jeweiligen Schwierigkeitsstufen gleichzeitig zu erfüllen waren.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 3: Gleichzeitig zu erfüllende Aufgaben für die jeweiligen Schwierigkeitsstufen.
Die einzelnen Aufgaben werden in den Abschnitten 3.4.2, 3.4.3, 3.4.4 und 3.4.5 im Detail beschrieben.
Zu den abhängigen Variablen zählen die Sensitivität in der TSDT sowie der NASA- TLX. Beide Maße sind Operationalisierungen für den Workload.
3.4 Versuchsablauf
Im Folgenden wird der allgemeine Ablauf, die einzelnen Aufgaben sowie die geplanten Auswertungsmethoden beschrieben.
3.4.1 Allgemeiner Ablauf
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 6: Versuchsaufbau.
Der Versuchsaufbau ist in Abbildung 6 dargestellt. Die Tracking- und die Systemüberwachungsaufgabe wurde über die Multi-Attribute Task Battery (MATB-II) (SantiagoEspada et al., 2011) gesteuert. An den Laptop, auf dem die MATB-II lief, waren eine externe Tastatur, eine Maus sowie ein Thrustmaster Hotas Warthog Flight Stick angeschlossen (im Hintergrund von Abbildung 6). Parallel zu den MATB-Aufgaben wurde die TSDT und die Kopfrechenaufgabe mithilfe eines weiteren Laptops (im Vordergrund von Abbildung 6) gesteuert.
Am Anfang jedes Blockes wurde von der Versuchsleitung angesagt, welche Aufgaben gleichzeitig zu erfüllen waren. Am Ende jedes Blockes füllten die Probanden den NASA-TLX aus, jeweils bezogen auf die vorangegangene Aufgabenkombination. Nach einer Trainingsphase (zur Konzeption des Trainings siehe Abschnitt 3.1) wurden in der Experimental-Phase die in Tabelle 3 dargestellten Schwierigkeitsstufen je zwei mal in kontrolliert randomisierter Reihenfolge dargeboten (zur Kontrolle der Reihenfolge siehe Abschnitt 3.1, der Randomisierungsplan ist im Anhang beigefügt).
3.4.2 Tactile Signal Detection Task (TSDT)
In der Abteilung Human Factors Engineering wurde ein Prototyp für eine Tactile Detection Response Task (TDRT) entwickelt. Testpiloten sollten eine DRT mit taktiler Modalität (für eine genauere Beschreibung des Paradigmas siehe Abschnitt 2.1.4) während einer Flugsimulation durchführen. Dadurch sollten Erkenntnisse über den Workload des Piloten zur Evaluation von Cockpit-Designs gewonnen werden. Der Kasten mit der Aufschrift "TDRT", zu sehen in Abbildung 7, enthält ein Arduino-Board. Daran angeschlossen sind ein kleiner Vibrationsmotor, der auf eine Platte geklebt ist, sowie zwei Antwortknöpfe. Über ein Ethernet-Kabel war das Setup mit einem Laptop verbunden, auf dem die zugehörige von der Abteilung selbst entwickelte Steuersoftware installiert war. Diese Software erlaubte das Anlegen von Vibrationsmustern als taktile Stimuli, das Festlegen von InterStimulus-Intervallen, die Stimulus-Präsentation sowie die Aufzeichnung von Antworten. Mit der Software kann eine DRT mit einer Antwortmöglichkeit oder eine SDT mit zwei Antwortmöglichkeiten realisiert werden. Während des Experiments kann mit der in Abbildung 8 dargestellten Ansicht das Antwortverhalten der Probanden in Echtzeit überwacht werden. So hätte auf eventuelle Unregelmäßigkeiten wie zufälliges Knopfdrücken reagiert werden können.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 7: TDRT-Prototyp mit Arduino-Kasten, Vibrationsplatte und zwei Antwortknöpfen.
Die Vibrationsplatte wurde mit Leukofix Fixierpflaster im Nacken der Probanden angebracht (Abbildung 9). Damit die TSDT gleichzeitig mit den anderen Aufgaben durchgeführt werden konnte, wurden die beiden Antwortknöpfe an den Joystick angebracht, der in der Tracking-Aufgabe bedient wurde (zu sehen in Abbildung 10).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 8: Ansicht der Versuchsleitung zum Überwachen der TSDT-Leistung.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 9: Platte mit Vibrationsmotor im Nacken einer Probandin.
Aufgabe war es, Vibrationsreiz-Paare korrekt zu identifizieren. Die möglichen Reizpaare waren:
gleich - zwei identische Reize folgen kurz aufeinander.
oder
verschieden - zwei Reize folgen kurz aufeinander, die sich in Intensität und Dauer unterscheiden.
Die zeitlichen Abstände zwischen den Stimuli waren normalverteilt (M = 3s, SD = 1s). Wenn zwei verschiedene Reize wahrgenommen werden, sollte so schnell wie möglich der untere Knopf am Joystick gedrückt werden, um zu signalisieren: „Ich habe einen Unterschied gespürt“. Wenn zwei gleiche Reize wahrgenommen werden, sollte so schnell wie möglich der obere Knopf gedrückt werden, um zu signalisieren: „Da war kein Unterschied“. Während der Trainingsphase hatten die Probanden Gelegenheit, sich diese Zuordnung zu merken. Probanden wurden instruiert, zu raten, falls sie sich nicht sicher waren.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 10: Am Joystick angebrachte Knöpfe der TSDT.
3.4.3 Tracking
Die Probanden mussten ein kompensatorisches Tracking durchführen. Mit dem Joystick wurde das in Abbildung 11 rot eingekreiste Zielobjekt kontrolliert. Wenn es nicht gesteuert wurde, bewegte es sich von der Mitte weg. Aufgabe war es, das Zielobjekt so nah wie möglich an der Mitte zu halten. So wurde konstant Workload induziert. Zur Kontrolle der Leistung wurde ein mal pro Sekunde die Wurzel des mittleren quadratischen Abstands des Zielobjekts von der Mitte berechnet. Der Mittelwert dieser Werte pro Block (mittlerer Offset) diente als Leistungsindikator.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 11: Abbildungen zur Erläuterung der Tracking-Task aus Santiago-Espada, Myer, Latorella und Comstock (2011). Links ist das Zielobjekt nahe der Mitte, rechts ist es zu weit von der Mitte entfernt und sollte mehr Richtung Mitte gesteuert werden.
3.4.4 Systemüberwachung
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 12: Zu überwachende Kontrolleuchten und Skalen in der Systemüberwachungsaufgabe.
Die Systemüberwachungsaufgabe ist der Aufgabe eines Piloten nachempfunden, Kennwerte wie die Flughöhe, Geschwindigkeit oder Tankfüllung während des Fluges zu überwachen. Hier müssen Probanden Kontrolleuchten (F5 und F6) und Skalen (F1-F4) überwachen, zu sehen in Abbildung 12. Eine Reaktion war gefordert, wenn die grüne Kontrolleuchte (F5) ausging, die rote Kontrolleuchte anging (F6) oder einer der dunklen Bereiche auf den Skalen (F1-F4) zu den Extremen ausschlug (F3 in der Abbildung). Die zeitlichen Abstände zwischen den Ereignis- sen waren normalverteilt (M = 7s, SD = 3s). Wenn keine Reaktion erfolgte, blieben die Kontrolleuchten und Skalen im kritischen Zustand, bis reagiert wurde. Ein Timeout nach 10s (Kontrolleuchten) beziehungsweise 15s (Skalen) war ebenfalls möglich.
3.4.5 Kopfrechnen
Die Kopfrechenaufgabe induzierte zusätzlichen Workload während der Durchführung der anderen Aufgaben. Probanden hörten gesprochene dreistellige Zufallszahlen über Beyerdy- namic DT990 Pro Kopfhörer. Von dieser Zahl sollten sie fünf abziehen und das Ergebnis laut aussprechen. Die zeitlichen Abstände zwischen den Zahlen waren normalverteilt (M = 10s, SD = 2s). Die Versuchsleitung konnte mithilfe der in Abbildung 13 dargestellten Ansicht mit Knopfdruck vermerken, ob die Antworten der Probanden richtig oder falsch waren. Aufgrund des durchweg hohen Bildungsstandes der Stichprobe wurden geringe Fehlerraten erwartet. Die Richtigkeit der Antworten wurde daher nur zur Kontrolle erhoben, ob die Aufgabe instruktionsgemäß erfüllt wurde.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 13: Ansicht der Versuchsleitung während der Kopfrechenaufgabe.
3.4.6 NASA Task Load Index (TLX)
Am Ende von jedem Block erhielten Probanden die Gelegenheit, die Gesamtheit der zuvor erfüllten Aufgaben hinsichtlich ihres Workloads zu bewerten. Dabei stellt Abbildung 14 die Ansicht dar, in der das Rating abgegeben werden konnte. Probanden hatten eine deutsche Übersetzung und eine Ausformulierung der Skalen vorliegen. Diese basieren auf dem Manual der MATB-II (Santiago-Espada et al., 2011) und sind dem Anhang beigefügt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 14: Workload-Rating mit dem NASA-TLX.
3.5 Auswertungsmethoden
Alle Auswertungen wurden mit der freien Statistik-Software R (R Development Core Team, 2011) durchgeführt. Ebenfalls wurden einiger ihrer Erweiterungen für unter anderem Datenmanipulation und Graphenerstellung (Champely, 2018; Fox & Weisberg, 2011; Morey & Rouder, 2018; Navarro, 2015; Wickham, 2011, 2016) genutzt. Die ausgewerteten Rohdaten sowie die verwendeten Skripte zur Analyse befinden sich auf der beigefügten CD.
Eine Reihe unerwünschter Effekte sollte durch qualitative Analysen ausgeschlossen werden. Zum Ausschluss eines Ermüdungseffektes wurde Sensitivität und Reaktionszeit in der TSDT sowie der durchschnittliche NASA-TLX der beiden Test-Hälften miteinander verglichen. Zum Ausschluss eines Trainingseffektes in der Experimentalphase erfolgte eine Untersuchung der Daten hinsichtlich Leistungsverbesserungen im Verlauf des Experiments. Außerdem erfolgten qualitative Analysen der Leistungsdaten zur Kontrolle von instruktionswidrigem Probandenverhalten und zum Entdecken eventueller technischer Probleme. Die konkrete Umsetzung dieser Kontrollen ist im Auswertungsskript auf der beigefügten CD einsehbar.
Um zu überprüfen, ob die Workload-Stufe einen Effekt auf die Sensitivität hat (Hypothese A), wurde eine einfaktorielle ANOVA mit Messwiederholung durchgeführt. Zur Überprüfung des angenommenen negativen linearen Zusammenhangs von Workload und Sensitivität (Hypothese B) wurde die Pearson-Korrelation von Sensitivität und NASA- TLX errechnet.
Um die Erfüllung der Voraussetzungen der geplanten statistischen Methoden zu sichern, wurden die relevanten Daten auf Ausreißer, Normalverteilung (Shapiro-Wilk Test of Normality) und Sphärizität untersucht.
4 Ergebnisse
4.1 Leistungskennwerte der Primäraufgaben
Tabellen 4, 5 und 6 zeigen Kennwerte der Leistung in den Primäraufgaben Tracking, Systemüberwachung und Kopfrechnen. RT steht hier für Reaktionszeit. Der Offset-Kennwert der Tracking-Aufgabe ist hier die Wurzel der mittleren quadratischen Abweichung von der Mitte in Pixeln.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 4: Leistungskennwerte in der Primäraufgabe Tracking.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 5: Leistungskennwerte in der Primäraufgabe Systemüberwachung.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 6: Leistungskennwerte in der Primäraufgabe Kopfrechnen.
Diese Kennwerte wurden zur Kontrolle erhoben und hinsichtlich Anomalien analysiert, fließen aber sonst nicht weiter in die Auswertung mit ein.
4.2 Prüfung der Voraussetzungen
Sensitivität und Reaktionszeit in der TSDT sowie der NASA-TLX wiesen Split-Half- Reliabilitäten zwischen r = .84 und r = .88 auf. Daher wird davon ausgegangen, dass eine zunehmende Ermüdung der Probanden, wenn vorhanden, keinen bedeutsamen Einfluss auf die Ergebnisse hatte.
Im Verlauf des Experiments zeigte sich keine auffällige Verbesserung der Reaktionszeit in der TSDT, die auf einen Trainingseffekt hingedeutet hätte. Gelegentlich kam es zu einer geringfügigen Verschlechterung der durchschnittlichen Reaktionszeit.
Bei einer Ausreißerkontrolle waren die Werte eines Probanden auffällig. Auf den Ausschluss dieses Datensatzes wurde verzichtet, da die damit zusammenhängende Mittelwertverschiebung als vernachlässigbar eingeschätzt wurde (Verschiebungen der Sensitivität um bis zu 0.2 und des NASA-TLX um bis zu 2.5).
Der Shapiro-Wilk-Test of Normality zeigte, dass die Sensitivität insgesamt nicht normalverteilt ist (W = .94, p < .05). Vor allem auf den Workload-Stufen 1 (W = .79, p < .05) und 2 (W = .86, p < .05) fällt die Sensitivität rechtssteil aus, während der Shapiro- Wilk-Test für die Workload-Stufen 3 (W = .97, p > .05) und 4 (W = .96, p > .05) eine Normalverteilung nicht ausschließt.
Der Mauchly-Test für Sphärizität war aufgrund des Versuchsdesigns mit nur einer Beobachtung pro Workload-Stufe nicht angebracht. Eine manuelle Überprüfung der Varianzhomogenität brachte keine wesentlichen Unterschiede zwischen den Varianzen der Stufen zum Vorschein.
4.3 Hypothese A
Tabelle 7 stellt die zentralen Kennwerte der TSDT im Verhältnis zu den Workload-Stufen dar. In Abbildung 15 ist die mittlere Sensitivität im Verhältnis zu den Workload-Stufen abgetragen. In einer einfaktoriellen ANOVA mit Messwiederholung zeigte sich ein signifikanter Effekt der Workload-Stufe auf die Sensitivität (F = 71.24, p < .05).
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 7: Zentrale Kennwerte der TSDT (zur Berechnung siehe Abschnitt 2.2.3).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 15: Sensitivität im Verhältnis zur Workload-Stufe.
Gemäß dem rj2 = .27 handelt es sich um einen starken Gesamt-Effekt der Workload- Stufe auf die Sensitivität.
Paarweise t-Test-Vergleiche mit gepoolter Standardabweichung zeigen signifikante Unterschiede in der Sensitivität zwischen den Workload-Stufen 1 und 2 sowie 2 und 3, aber nicht zwischen den Stufen 3 und 4. Tabelle 8 enthält die Effektstärken für die jeweiligen Stufenunterscheidungen-
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 8: Cohen’s d der post-hoc-Vergleiche der Workload-Stufen. Gemäß den Faustregeln nach Cohen (2013) handelt es sich bei Effektstärken größer als 0.2 um kleine Effekte (gelb), größer als 0.5 um mittlere und größer als 0.8 um große Effekte (grün). Der Wert im rot hinterlegten Feld ist kleiner als 0.2. Die Unterschiede zwischen den Stufen mit * sind im paarweisen t-Test-Vergleich signifikant.
4.4 Hypothese B
Zwischen der Sensitivität und dem NASA-TLX besteht ein negativer linearer Zusammenhang r = -.98 (Pearson’s Produkt-Moment-Korrelation). Die Korrelation ist signifikant (t = -7.88, df = 2 p < .05) und graphisch abgetragen in Abbildung 16. Abbildung 17 zeigt das Verhältnis von NASA-TLX und Sensitivität miteinander. Tabelle 10 enthält die absoluten Unterschiede der beiden Maße zwischen den Workload-Stufen.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 9: NASA-TLX und Sensitivität im Verhältnis zu den Workload-Stufen.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 16: Zusammenhang zwischen NASA-TLX und Sensitivität.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 10: Absolute Unterschiede zwischen den Workload-Stufen. Die Unterschiede sind entweder größer (grün), um bis zu einer halben SD kleiner (gelb) oder deutlich kleiner (rot) als die gepoolte SD des jeweiligen Maßes auf den verglichenen Stufen.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 17: Sensitivität (pink) und NASA-TLX (blau) im Verhältnis zur Workload- Stufe. Sensitivität ist hier an empirischem Mimimum (-1.0) und Maximum (4.7) skaliert.
5 Diskussion
5.1 Bedeutung der Ergebnisse
5.1.1 Leistung in den Primäraufgaben
Fehlerraten und Reaktionszeiten in Kopfrechnen und Systemüberwachung sowie TrackingOffset blieben bei Erhöhung des Workloads konstant. Workload-Messung durch sekundäre Leistungserfassung basiert auf der Annahme, dass bei steigendem Workload vermehrt Ressourcen in das Halten des Leistungslevels in den Primäraufgaben investiert werden. Die Leistung in der geringer priorisierten Zusatzaufgabe verschlechtert sich dabei. Die vorliegenden Ergebnisse sind konsistent mit dieser Grundannahme.
5.1.2 Hypothese A
Wie in Hypothese A angenommen, hat die Workload-Stufe einen signifikanten Effekt auf die Sensitivität. Bei steigendem Workload verringert sich die Sensitivität. In Tabelle 10 ist aber zu sehen, dass die Unterschiede im Verhältnis zur Standardabweichung gering ausfallen. Gemäß der Effektstärke n2 wird 27% der Varianz in der Sensitivität durch die Workload-Stufe erklärt. Allerdings ist zu beachten, dass Eta-Quadrat die Effektstärke tendenziell überschätzt (Okada, 2014).
5.1.3 Differenzierungsfähigkeit der Sensitivität
Die Effektstärken der post-hoc-Tests zeigen, dass die Differenzierung nicht zwischen allen Stufen gleich gut gelingt. Der Unterschied in der Sensitivität zwischen den Stufen 3 und 4 ist nicht signifikant (siehe Tabelle 8). Eine mögliche Erklärung hierfür ist, dass die Manipulation der unabhängigen Variable Aufgabenschwierigkeit nicht gelungen ist. Auf Workload-Stufe 2 und 4 kommt nur Tracking zu den Aufgaben der vorherigen Stufe hinzu, während die Aufgaben von Stufe 2 und 3 komplett unterschiedlich sind (zur Übersicht der Aufgaben der Workload-Stufen siehe Tabelle 3). Vor Beginn des Experiments füllten Probanden einen Fragebogen aus. In diesem sollten sie den Grad ihrer Vertrautheit mit Joysticks und Tracking-Aufgaben angeben. 80% (Tracking) beziehungsweise 92% (Joysticks) gaben an, mindestens ein wenig Erfahrung im Umgang mit Joysticks oder Tracking zu haben. Viele berichteten außerdem spontan, sie hätten Tracking als die einfachste Aufgabe empfunden. In Tabelle 10 ist zu sehen, dass der Unterschied zwischen den Stufen 1 und 2 sowie 3 und 4 geringer ist als der zwischen 2 und 3. Die Affinität der Stichprobe mit der Tracking-Aufgabe scheint plausibel, da ein Teil der Probanden als Mitarbeiter von Airbus Defense and Space sich beruflich mit Flugsimulationen beschäftigen. Zwei hatten sogar Erfahrung als Kampfpiloten. Aufgabenerfahrung reduziert Workload nachweislich (Patten et al., 2006). Die geringen Unterschiede der Sensitivität zwischen Stufe 1 und 2 sowie 3 und 4 könnten also durch einen Stichprobeneffekt erklärt werden. Dennoch sind die Ergebnisse in diesem Fall konsistent mit den in Abschnitt 2.1.1 erläuterten Annahmen über Workload als Beanspruchungskonzept.
5.1.4 Hypothese B
Wie in Hypothese B angenommen, ist die Korrelation zwischen Sensitivität und NASA- TLX hoch negativ (r = -.98) und signifikant. Damit konnte das angenommene Verhältnis der beiden Werte, wie es bereits Putri et al. (2016) beobachtet wurde, empirisch bestätigt werden. Beim Vergleich der angenommenen Verläufe (Abbildung 3) mit den Daten (Abbildung 17) fällt allerdings auf, dass die vorliegenden Ergebnisse nur den Bereich vor der Overload-Schwelle abbilden. Es ist also noch unklar, wie das Verhältnis zwischen subjektivem Workload und Sensitivität im Fall von Überforderung der Probanden ausfällt.
5.2 Alternativerklärungen
Es ist möglich, dass die Integration der Signalentdeckungstheorie in die Aufgabenkonstruktion der DRT überhaupt keinen Vorteil gebracht hat.
Bei der Auswertung von Signalentdeckungsaufgaben wird angenommen, dass falschen Antworten eine falsche Einschätzung des Stimulus zugrunde liegt. Zur Vermeidung von ausbleibenden Reaktionen wurden Probanden instruiert, bei Unsicherheit mit zufälligem Knopfdruck auf die Vibrationen zu reagieren. Dadurch können Fehler auch zustande kommen, wenn Probanden raten. Eine weitere mögliche Ursache für Fehler ist das Drücken des falschen Knopfes bei richtiger Einschätzung der Vibration. Einsicht über einen solchen Fehler kann Verhaltensanpassungen zur Vermeidung zukünftiger Fehler bedingen. Diese beansprucht allerdings Ressourcen und kann dadurch zur Ursache weiterer Fehler werden. Bei der Interpretation der Ergebnisse muss daher bedacht werden, dass das Zutreffen der Grundannahme der Signalentdeckungstheorie über die Ursache von Fehlern nicht gesichert ist.
5.3 Mögliche Konfundierungen
5.3.1 Konzeptuell bedingte Konfundierungen
Aus Aussagen mehrerer Probanden ging hervor, dass die Wahrnehmung des Geräuschs der Vibration bei der Erkennung der Reizklasse hilfreich war. Damit war die TSDT keine ausschließlich taktile Aufgabe. Probanden erlebten eine besonders starke Interferenz der TSDT und der Kopfrechenaufgabe, wenn die Darbietung von Zahlen und Vibrationen zeitlich zusammenfiel. Dies kam aber selten vor, da die Inter-Stimulus-Intervalle randomisiert waren. Die POC mit der Kopfrechenaufgabe in Abbildung 5 kann durch die Seltenheit der konfligierenden Stimulus-Darbietung erklärt werden. Die wenigen vorkommenden Fälle sind aber ein Hinweis darauf, dass die TSDT stärker mit auditiven Aufgaben interferiert als bisher angenommen.
Die Grundannahmen der TSDT sollten zunächst im kontrollierten Laborsetting überprüft werden. Daher wurde bei der Konzeption des Experiments die Annahme multipler Ressourcen (dargestellt in Abschnitt 2.1.3) berücksichtigt, um die Interferenz der TSDT mit den Primäraufgaben zu minimieren. Wenn die Aufgaben unterschiedliche Ressourcen beanspruchen, sind allerdings die Unterschiede zwischen den Stufen kleiner, als wenn Ressourcenkonkurrenz besteht. Wenn die Workload-Unterschiede zwischen den Stufen deshalb geringer ausgefallen sind, könnte sich das in der Sensitivität entsprechend niedergeschlagen haben.
Eine mögliche Konfundierung der Aufgabenschwierigkeit stellen affektive oder motivationale Komponenten der Leistungsbereitschaft dar. Spontane Aussagen einiger Probanden nach Absolvieren von Blöcken der Workload-Stufe 3 oder 4 ähnelte der Beschreibung von Flow-Erlebnissen (Schiefele, 2019). Die Schwierigkeit sei herausfordernd, aber nicht überfordernd gewesen. Probanden seien daher hoch motiviert gewesen und zeigten auch relativ gute Leistungen in diesen Blöcken. Hancock und Matthews (2018) besprechen diese Komponente als "willing to spend", die Bereitschaft zum Investieren von Ressourcen. Dabei handelt es sich um einen bekannten Einfluss auf Ressourcenallokation und subjektive Workload-Ratings.
5.3.2 Methodisch bedingte Konfundierungen
Training und Experiment nahmen jeweils mindestens eine Stunde in Anspruch. Im Verlauf des Experiments zeigten mehrere Probanden zunehmende Erschöpfung und vermuteten eine Verschlechterung ihrer Leistung. Über alle Probanden hinweg fand sich zwar keine auffällige Verschlechterung der Reaktionszeiten im Verlauf des Experiments, eine Konfun- dierung der Leistung durch Müdigkeit ist aber auf Einzelfallebene nicht auszuschließen. Bei einzelnen Probanden zeigte sich eine Erhöhung des Workload-Ratings auf der Stufe 1 beim Vergleich des früheren mit dem späteren Block. Die könnte mit einem Nachlassen der Konzentrationsfähigkeit erklärt werden, was das korrekte Reagieren in der TSDT erschwert.
Die TSDT ist als Nebenaufgabe gedacht, die gleichzeitig neben jeder beliebigen Primäraufgabe durchgeführt werden kann. Im verwendeten Laborsetting war jedoch kein besonderer Anreiz vorhanden, Systemüberwachung, Tracking und Kopfrechnen höher zu priorisieren. Trotz expliziter Instruktion, die TSDT den anderen Aufgaben unterzuordnen, ist nicht auszuschließen, dass Probanden alle Aufgaben gleich behandelt oder eine andere, eigene Priorisierung vorgenommen haben. Bei einem Einsatz im Feld wäre dies weniger problematisch. Von Testpiloten im Flugsimulator ist zu erwarten, dass sie artifizielle Zusatzaufgaben wie die TSDT gegenüber ihren üblichen Aufgaben geringer priorisieren würden.
5.4 Limitationen
Zur abschließenden Evaluation der Ergebnisse sollen technische Limitationen angeführt werden.
Die ausgewerteten Daten stammen von einer nicht-repräsentativen Gelegenheitsstichprobe mit einer unausgeglichenen Geschlechterverteilung (76% männlich) und fast durchweg vorhandenem akademischen Bildungshintergrund. Während zu vermuten ist, dass das Geschlecht kein entscheidender Faktor ist, zeigte sich bezüglich der kognitiven Leistungsfähigkeit eine geringere Spannbreite, als sie in der Population zu erwarten wäre. Die gedachte Zielgruppe im Anwendungskontext (Testpiloten im Flugsimulator) wäre aber noch homogener bezüglich ihrer kognitiven Fähigkeiten gewesen und würde einen noch höheren Männeranteil aufweisen.
Auch wenn die ANOVA in der Regel robust auf die Verletzung ihrer Voraussetzungen reagiert (Blanca, Alarcón, Arnau, Bono & Bendayan, 2017), ist zu erwähnen, dass das Maß der Sensitivität auf den Workload-Stufen 1 und 2 nicht normalverteilt ausfiel. Dies könnte dadurch erklärt werden, dass diese Schwierigkeitsstufen zu einfach waren. Der Workload war auf diesen Stufen noch so gering, dass er für einige Probanden keine Beeinträchtigung in der Sensitivität für die Signale der TSDT bewirkte. Dadurch kamen hohe Werte der Sensitivität auf diesen Stufen häufiger vor, was die Verteilung rechtssteil machte. Auf den Workload-Stufen 3 und 4 hingegen ist eine Verschlechterung der Sensitivität in Folge des steigenden Workloads bei fast allen Probanden vorgekommen. Das Ausmaß dieser Veränderung könnte normalverteilt sein.
5.5 Offene Fragen
Die Möglichkeit einer Nicht-Reaktion auf Reize in einer SDT wirft die Frage auf, wie mit diesen nicht gegebenen Antworten umgegangen werden sollte. Auch wenn die Instruktion ausdrücklich darauf hinweist, dass immer eine Reaktion erwünscht ist, können auch in der SDT Reaktionen auf Reize ausbleiben. Das kann zum Beispiel daran liegen, dass Probanden durch die Primäraufgaben ausgelastet sind und nicht dazu kommen, einen der Knöpfe zu drücken. Ebenfalls ist vorgekommen, dass Probanden trotz der Absicht, auf jeden Reiz zu reagieren, diese bei hohem Workload überhaupt nicht wahrgenommen haben. Verpasste Reize kamen relativ selten vor, der Median lag hier bei 1.22%. In einem Einzelfall erfolgte auf bis zu 61.54% der Trials keine Reaktion. Diese verpassten Reize wurden aus der Wertung ausgeschlossen. Insgesamt zeigte sich ein Trend: Bei höherem Workload stieg die Zahl der verpassten Trials. Dieser Aspekt der SDT-Leistung und seine Beziehung mit Workload ist vollständig unerforscht. Eine zunehmende Zahl verpasster Trials bei zunehmendem Workload wirft auch die Frage auf, auf welchen Anteil der Trials mindestens eine Antwort erfolgt sein muss, damit die Interpretation der Sensitivität zulässig ist. Um die SDT als Workload-Messmethode anzuwenden, braucht es ein theoretisches Framework zur Erklärung und Maßstäbe für die Auswertung von verpassten Reizen.
Gemäß des in Abschnitt 2.2.2 dargestellten Modells der Signalentdeckung verändern sich Sensitivität und Kriterium unabhängig voneinander. Die Größen repräsentieren jeweils die Detektionsfähigkeit und das Entscheidungsverhalten des Probanden. Bei zunehmendem Workload verringerte sich erwartungsgemäß die Sensitivität. Gleichzeitig wurde aber auch das Entscheidungskriterium c zunehmend liberaler (siehe Tabelle 7). In einer explorativ durchgeführten einfaktoriellen ANOVA zeigte sich ein signifikanter Effekt der Workload-Stufe auf das Kriteirum. Die Rolle des Kriteriums im Kontext der Signalentdeckung als Workload-Messmethode sollte durch zukünftige Forschung aufgeklärt werden.
Die taktile Modalität der TSDT beansprucht Ressourcen auf einem Kanal, der in einem potenziellen Flugsimulator-Setting eher weniger in Anspruch genommen wird. Wie in Abschnitt 5.3.1 erwähnt, ist allerdings nicht auszuschließen, dass die TSDT auch auditive Ressourcen beansprucht. Die Vibrationsmuster in den Experimenten von Elliott et al. (2019) waren großflächiger und komplexer. Während der Identifikation von Vibrationsmustern hörten die Probanden in diesem Experiment ein stetiges Rauschen über Kopfhörer. Damit wurde sichergestellt, dass die Erkennung der Vibrationen nicht auf auditiver Wahrnehmung beruhte. Dieses Beispiel zeigt, dass eine rein taktile Signalentdeckung mit einem angepassten experimentellen Setup möglich gewesen wäre.
Als Workload-Messmethode sollte die SDT selbst möglichst wenig Workload induzieren. Auf der Workload-Stufe 1 (nur TSDT) wurde ein NASA-TLX von durchschnittlich 18.18 (SD = 10.57) angegeben. Ohne weitere Forschung kann aber nicht geklärt werden, wie invasiv die TSDT als Zusatzaufgabe ist.
In Abschnitt 5.1 wurde die unzureichende Differenzierungsfähigkeit der Workload- Maße angesprochen. Weitere Forschung könnte sich methodischen und statistischen Möglichkeiten zur Verbesserung der Differenzierungsfähigkeit widmen.
Ebenfalls wurde in Abschnitt 5.1 erwähnt, dass in den erhobenen Leistungsverläufen die Overload-Schwelle nicht abgebildet ist. Eine Exploration der Verhältnisse von Aufgabenschwierigkeit, Sensitivität und subjektivem Workload im Bereich um die OverloadSchwelle wäre ein weiterer möglicher Gegenstand zukünftiger Forschung.
Bei der Diskussion des NASA-TLX ist das Phänomen der Kontexteffekte nicht zu vernachlässigen. Diese bezeichnen den Einfluss des Vergleichs von Aufgabenschwierigkeiten auf subjektive Workload-Ratings. Beim Wechsel von einer leichten in eine schwierigere zurück in die leichte Aufgabenbedingung wird der Workload der leichten Aufgabenbedingung nach dem Durchführen der schwierigeren höher eingeschätzt als davor. Umgekehrte Tendenzen zeigen sich beim Wechsel von einer schwierigen in eine leichtere zurück in die schwierige Aufgabenbedingung. Hancock, Williams und Manning (1995) zeigten, dass diese Effekte beim Einsatz des NASA-TLX vorkommen. Im Experiment, dass dieser Bachelorarbeit zugrunde liegt, zeigten einige Probanden ebenfalls diese Tendenzen in ihren Ratings und sprachen die Versuchsleitung darauf an, dass sie ihre Einschätzungen geändert hätten. Da objektive Workload-Messung nicht durch kognitive Vergleichsprozesse beeinflusst wird, sollten sich diese Tendenzen in den Leistungen einer SDT nicht zeigen. Mit weiterer Forschung gilt es, diese Annahme zu belegen.
5.6 Fazit
Die vorliegenden Ergebnisse sind konsistent mit beiden Hypothesen. Die Sensitivität reagiert auf Veränderungen im Workload und hängt negativ linear mit dem NASA-TLX zusammen. Die Trendlinien von Sensitivität und NASA-TLX in Abbildung 17 verlaufen konsistent mit der konzeptuellen Vorhersage in Abbildung 3. Die vorliegenden Daten stützen also die theoretische Basis einer Signalentdeckungsaufgabe für den Einsatz zur Workload-Messung. Jeder Erkenntnisgewinn kann allerdings nur auf den Bereich vor der Overload-Schwelle angewendet werden. Erst wenn diese in experimentellen Daten abgebildet ist, kann geklärt werden, ob die SDT einen Vorteil gegenüber Leistungsmaßen wie der Reaktionszeit oder Fehlerraten bietet. Auch wenn die gefundenen Effekte hypothesenkonform sind, gelingt die Differenzierung zwischen Workload-Stufen weder mit der Sensitivität noch mit dem NASA-TLX eindeutig. Dies könnte durch die Konzeption der Schwierigkeitsstufen bedingt sein. Trotzdem wurde deutlich, dass die Werte beider Maße konvergente Tendenzen zeigen und empfindlich für Störeinflüsse sind. Mit mehr Forschung zu den in Abschitt 5.5 dargestellten offenen Fragen hat die SDT Potenzial, als Workload- Maß für praktische Anwendungen validiert zu werden.
Literatur
Albers, M. J. (2012). Human-Information Interaction and Technical Communication. doi:10.1017/CBO9780511781490.001
Battiste, V. & Bortolussi, M. (1988). Transport Pilot Workload: A Comparison of Two Subjective Techniques. Proceedings of the Human Factors Society Annual Meeting, 32(2), 150-154. doi:10.1177/154193128803200232
Billeriß, C., Kellerer, J. & Zimmer, A. C. (2018). Development , Application , and Validation of a HMI Multimethod Inventory for Cockpit Evaluation - Demonstrated on a Newly Implemented Navigational Aid. In M. Schwarz, J. Lasry, G. Schnücker & H. Becherstorfer (Hrsg.), Proceedings of the 33rd Conference of the European Association for Aviation Psychology, Groningen: European Association for Aviation Psychology.
Blanca, M., Alarcón, R., Arnau, J., Bono, R. & Bendayan, R. (2017). Non-normal data: Is ANOVA still a valid option? Psicothema, 29 (4), 552-557.
Bruyas, M.-P. & Dumont, L. (2013). Sensitivity of detection response task (DRT) to the driving demand and task difficulty. PROCEEDINGS of the Seventh International Driving Symposium on Human Factors in Driver Assessment, Training, and Vehicle Design, 64-70.
Champely, S. (2018). pwr: Basic Functions for Power Analysis. Zugriff unter https://cran. r-project.org/package=pwr
Charles, R. L. & Nixon, J. (2019). Measuring mental workload using physiological measures: A systematic review. Applied Ergonomics, 74 (May 2018), 221-232. doi:10. 1016/j.apergo.2018.08.028
Cohen, J. (2013). Statistical power analysis for the behavioral sciences. Routledge.
Conti, A. S., Dlugosch, C., Vilimek, R., Keinath, A. & Bengler, K. (2012). An assessment of cognitive workload using detection response tasks. Advances in human aspects of road and rail transportation, S. 735-743. doi:10.1201/b12320-82
Eichinger, A. (2011). Bewertung von Benutzerschnittstellen für Cockpits hochagiler Flugzeuge. Zugriff unter http://epub.uni-regensburg.de/22754/1/Dissertation%7B% 5C_%7DArmin%7B%5C_%7DEichinger%7B%5C_%7DUniBib.pdf
Elliott, L. R., Pomranky-hartnett, R. A., Rapozo, F., Pettitt, R. A., Wooldridge, R. E. & Rapozomeran, A. (2019). Tactile Cues : Taction Characteristics, Salience, Ease of
Learning, and Recall (Techn. Ber. Nr. April). US Combat Capabilities Development Command, Army Research Laboratory.
Engström, J., Âberg, N., Johansson, E. & Hammarbäck, J. (2005). Comparison between visual and tactile signal detection tasks applied to the safety assessment of in-vehicle information systems. Proceedings of the Third International Driving Symposium on Human Factors in Driver Assessment, Training and Vehicle Design, 232-239. Zugriff unter https://trid.trb.org/view.aspx?id=763213 Foley, H. & Matlin, M. (2015). Sensation and Perception (5th). Psychology Press. Zugriff unter https://books.google.de/books?id = sbBmCgAAQBAJ%7B%5C&%7Dhl = de%7B%5C&%7Dsource=gbs%7B%5C_%7Dnavlinks%7B%5C_%7Ds Fox, J. & Weisberg, S. (2011). An R Companion to Applied Regression (Second). Thousand Oaks CA: Sage. Zugriff unter http://socserv.socsci.mcmaster.ca/jfox/Books/ Companion
Gawron, V. J. (2008). Human Performance, Workload and Situational Awareness Measures Handbook (2nd). London: CRC Press.
Gopher, D. & Donchin, E. (1986). Workload: An examination of the concept. In K. Boff, L. Kaufman & J. Thomas (Hrsg.), Handbook of perception and human performance, Vol. 2. Cognitive processes and performance (S. 1-49). Oxford: John Wiley & Sons. Hancock, P. & Matthews, G. (2018). Workload and Performance: Associations, Insensitivities, and Dissociations. doi:10.1177/0018720818809590 Hancock, P., Williams, G. & Manning, C. (1995). Influence of task demand characteristics on workload and performance. The International Journal of Aviation Psychology, 5 (1), 63-86.
Hart, S. G. (2006). Nasa-Task Load Index (NASA-TLX); 20 Years Later. Proceedings of the Human Factors and Ergonomics Society Annual Meeting, 50 (9), 904-908. doi:10.1177/154193120605000909. arXiv: 9605103 [cs]
Hart, S. G. & Staveland, L. E. (1988). Development of NASA-TLX (Task Load Index): Results of Empirical and Theoretical Research. Advances in Psychology, 52 (100), 139-183. doi:10.1016/S0166-4115(08)62386-9. arXiv: arXiv:1011.1669v3 Hart, S. G. & Wickens, C. D. (1990). Workload Assessment and Prediction. In Manprint (S. 257-296). doi:10.1007/978-94-009-0437-8_9
Hautus, M. J. (1995). Corrections for extreme proportions and their biasing effects on estimated values of d’. Behavior Research Methods, Instruments, & Computers. doi:10.3758/BF03203619
Hsieh, L., Seaman, S. & Young, R. (2015). A Surrogate Test for Cognitive Demand: Tactile Detection Response Task (TDRT). (April). doi:10.4271/2015-01-1385 Joiko, K., Schmauder, M. & Wolff, G. (2010). Psychische Belastung und Beanspruchung im, Berufsleben Erkennen-Gestalten. Bundesanstalt für Arbeitsschutz und Arbeitsmedizin. Dortmund. Zugriff unter https://www.baua.de/DE/Angebote/Publikationen/ Praxis/A45.pdf?%7B%5C_%7D%7B%5C_%7Dblob=publicationFile Kantowitz, B. & Simsek, O. (2001). Secondary Task Measures of Driver Workload. In Stress, Workload, and Fatigue (S. 395-408). Mahwah, New Jersey: Laurence Erlbaum Associates Inc. Zugriff unter https://trid.trb.org/view/683360 Krummenacher, J. & Müller, H. J. (2017). Aufmerksamkeit. In J. Müsseler & M. Rieger (Hrsg.), Allgemeine Psychologie (3rd). doi:10.1007/978-3-642-53898-8 Kühner, M. (2014). Haptische Unterscheidbarkeit mechanischer Parameter bei rotatorischen Bedienelementen (Diss.).
Macmillan, N. A. (2002). Signal Detection Theory. In H. Pashler & J. Wixted (Hrsg.), Stevens’ Handbook of Experimental Psychology, Volume 4, Methodology in Experimental Psychology, 3rd Edition (3rd, Kap. 2, S. 43-90). New York: John Wiley & Sons, Inc. Zugriff unter https://www.researchgate.net/profile/George%7B%5C_ %7DGescheider / publication /19876984 %7B%5C_ %7DPsychophysical %7B%5C_ %7DScaling/links/00b4952b8987b6ebb0000000/Psychophysical-Scaling.pdf Moosbrugger, H. & Kelava, A. (2013). Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (April, S. 1-5). doi:10.1007/978-3-642-20072-4_2 Morey, R. D. & Rouder, J. N. (2018). BayesFactor: Computation of Bayes Factors for Common Designs. Zugriff unter https://cran.r-project.org/package=BayesFactor Navarro, D. (2015). Learning statistics with R: A tutorial for psychology students and other beginners. (Version 0.5). Adelaide, Australia. Zugriff unter http://ua.edu.au/ ccs/teaching/lsr
Nett, N. & Frings, C. (2018). Signalentdeckungstheorie. Zugriff 8. August 2018 unter https://m.portal.hogrefe.com/dorsch/signalentdeckungstheorie/
Okada, K. (2014). IS OMEGA SQUARED LESS BIASED? A COMPARISON OF THREE MAJOR EFFECT SIZE INDICES IN ONE-WAY ANOVA. Behaviormetrika. doi:10. 2333/bhmk.40.129
Patten, C. J., Kircher, A., Östlund, J., Nilsson, L. & Svenson, O. (2006). Driver experience and cognitive workload in different traffic environments. Accident Analysis and Prevention. doi:10.1016/j.aap.2006.02.014
Peirce, J. W. (2007). PsychoPy-Psychophysics software in Python. Journal of Neuroscience Methods, 162(1-2), 8-13. doi:10.1016/j.jneumeth.2006.11.017
Peirce, J. W. (2008). Generating stimuli for neuroscience using PsychoPy. Frontiers in Neuroinformatics, 2(January), 1-8. doi:10.3389/neuro.11.010.2008
Putri, M., Yang, X. & Kim, J. H. (2016). Sensitivity, Bias, and Mental Workload in a Multitasking Environment. In D. Harris (Hrsg.), Engineering Psychology and Cognitive Ergonomics (Bd. 9736, 1955, S. 10-18). Lecture Notes in Computer Science. doi:10.1007/978-3-319-40030-3
R Development Core Team. (2011). R: A Language and Environment for Statistical Computing. Vienna: R Foundation for Statistical Computing. Zugriff unter http://www. r-project.org
Rabl, A. (2016). Bewertung räumlicher Anzeigen im Flugzeugcockpit (Diss., Universität Regensburg).
Santiago-Espada, Y., Myer, R. R., Latorella, K. A. & Comstock, J. R. (2011). The Multi-Attribute Task Battery II ( MATB-II) Software for Human Performance and Workload Research : A User’ s Guide. Hampton: National Aeronautics und Space Administration.
Schiefele, U. (2019). Flow-Theorie (Csikszentmihalyi). Zugriff unter https:/ /portal. hogrefe.com/dorsch/flow-theorie-csikszentmihalyi/
Schmidt-Atzert, L. & Amelang, M. (2012). Psychologische Diagnostik. Berlin: Springer.
Selcon, S., Taylor, R. & Koritsas, E. (1991). Workload or Situational Awareness?: TLX vs. SART for Aerospace Systems Design Evaluation. Proceedings of the Human Factors Society Annual Meeting, 35(2), 62-66. doi:10.1518/107118191786755706
Wickens, C. D. (2002). Multiple resources and performance prediction. 3(2), 159-177. doi:10.1080/14639220210123806
Wickham, H. (2011). The Split-Apply-Combine Strategy for Data Analysis. Journal of Statistical Software, 40(1), 1-29. Zugriff unter http://www.jstatsoft.org/v40/i01/
Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. Zugriff unter http://ggplot2.org
Anhang
1. Instruktionen
2. Consentform
3. Ablauf des Trainings
4. Randomisierungsplan
Auf der CD beigelegt
- Rohdaten
- aggregierte Daten
- zusätzliche Plots
- verwendete Auswertungsskripte
- PsychoPy-Experiment AudCalc (Kopfrechenaufgabe)
- MATB-II Event Files
- MATB-II Event File Generator
Instruktionen
Setup
Bitte finden Sie eine bequeme Sitzposition, von der aus Sie Tastatur und Joystick gut erreichen können. Dabei nutzen Sie Ihre rechte Hand für das Führen des Joysticks und Ihre linke Hand für das Bedienen der Tastatur.
Im Folgenden werden die einzelnen Teilaufgaben erklärt. Für alles wird es ausreichend Gelegenheit zur Übung geben. Falls nach den entsprechenden Durchgängen noch immer Trainingsbedarf irgendeiner Art besteht, sprechen Sie bitte die Versuchsleitung darauf an. Einzelne Aufgabenkombinationen können bei Bedarf problemlos erneut trainiert werden. Es ist wichtig, dass Sie gut am Ende des Trainings gut mit den Aufgaben vertraut sind.
Die Aufgaben sind z.T. einzeln, zum Teil gleichzeitig durchzuführen. Bitte versuchen Sie, alle Aufgaben so gut wie möglich zu machen. Tracking, Systemüberwachung und Kopfrechnen haben dabei immer Vorrang gegenüber der Vibrationserkennung.
TSDT - Tactile Signal Detection Task
Sowie Sie zu Ende gelesen haben, werde ich Ihnen eine kleine Platte in den Nacken kleben. An dieser ist ein Vibrationsmotor angebracht. Bei der taktilen Signalentdeckungsaufgabe (TSDT) geht es darum, Klassen von Vibrationsreizpaaren zu identifizieren. Es gibt zwei Arten von Reizpaaren:
1. gleich - zwei identische Reize folgen kurz aufeinander
2. verschieden - zwei Reize folgen kurz aufeinander, die sich in Intensität und Dauer unterscheiden
Wenn Sie zwei verschiedene Reize wahrnehmen, drücken Sie bitte den unteren Knopf am Joystick, um zu signalisieren „Ich habe einen Unterschied gespürt“. Wenn Sie zwei gleiche Reize wahrnehmen, drücken Sie bitte den oberen Knopf, um zu signalisieren „Da war kein Unterschied“. Während der Trainingsphase werden Sie Gelegenheit haben, sich diese Zuordnung zu merken.
Falls Sie sich nicht sicher sind, welches Reizpaar Sie wahrgenommen haben, raten Sie einfach. Wenn Sie sich verdrücken, ist das nicht schlimm. Ein „Korrigieren“ durch ein zweites Knopfdrücken kurz nach dem ersten ist aber nicht möglich.
Stellen Sie vor Beginn des Experiments bitte sicher, dass die Wahrnehmung der Vibrationsreize durch nichts behindert wird, z.B. Pulloverkragen, Haare, etc. Außerdem muss ich Sie bitten, während des Experiments Ihre Kopfposition möglichst ruhig zu halten. Zu große Veränderungen der Nackenbeugung können die Wahrnehmbarkeit der Vibrationen beeinflussen. Während der Trainingsphase werden Sie Gelegenheit haben, eine gute Position zu finden.
Am Anfang von jedem Block gibt es einen „Countdown“ in Vibrationsform. Dieser markiert den zeitlichen Anfang des Blocks. Wenn die TSDT gleichzeitig mit anderen Aufgaben durchgeführt wird, haben die anderen Aufgaben immer Vorrang. Die TSDT ist als Zusatzaufgabe gedacht. Wenn es nicht anders möglich ist, vernachlässigen Sie eher diese Aufgabe, um die anderen Aufgaben weiter so gut wie möglich erfüllen zu können. Stellen Sie bitte sicher, auf jeden Reiz irgendwie zu reagieren. Raten Sie also, falls Sie sich nicht sicher sind.
Workload-Rating
Nach jedem Block werden Sie gebeten, uns mitzuteilen, wie hoch die Beanspruchung der soeben durchgeführten Aufgaben war. Hierfür gibt es sechs Subskalen.
Abbildung in dieser Leseprobe nicht enthalten
Jede der Subskalen wird als Kontinuum repräsentiert, von niedrig (low) nach hoch (high) bzw. bei Performance von gut (good) nach schlecht (poor). Achten Sie auf die unterschiedliche Polung der jeweiligen Skalen! Ihr Rating soll sich dabei auf die Gesamtheit aller Aufgaben beziehen, die Sie im vorangegangen Block zu erfüllen hatten. Bitte ziehen Sie keine Vergleiche mit fiktiven Aufgaben, v.a. wenn Sie ein Rating dieser Art schon einmal ausgefüllt haben.
Abbildung in dieser Leseprobe nicht enthalten
Sie können mit Maus oder Touchpad einen Slider für jede Subskala platzieren. Die Platzierung sollte Ihre Erfahrung so gut wie möglich widerspiegeln. Wenn Sie die Slider platziert haben, erscheint der Button „Save All“. An dieser Stelle können Sie, wenn nötig, eine Pause zwischen den Blöcken machen.
Wenn Sie auf „Save All“ klicken, werden Ihre Antworten übergeben. Direkt anschließend startet der nächste Block oder das Experiment endet.
Systemüberwachung
Die Systemüberwachung findet im linken oberen Bereich des Fensters statt. Die in der Abbildung sichtbaren Tastenzuweisungen werden während der Aufgabe sichtbar bleiben. Im oberen Teil des Bereichs befinden sich zwei Warnlichter. Im unteren Bereich sind vier Skalen zu sehen. Auf diesen befinden sich dunkle Bereiche, die um die Mitte fluktuieren.
Abbildung in dieser Leseprobe nicht enthalten
Lichter
Im Normalzustand leuchtet das linke Warnlicht grün. Wenn es ausgeht, sollten Sie so schnell wie möglich mit dem Drücken der F5 Taste reagieren, damit es wieder angeht.
Das rechte Warnlicht ist im Normalzustand ausgeschaltet. Gelegentlich leuchtet es rot auf. Darauf sollten Sie so schnell wie möglich mit dem Drücken der F6 Taste reagieren, damit es wieder ausgeht.
Skalen
Gelegentlich verschieben sich die dunklen Bereiche der Skalen zu den Extremen. D.h. der dunkelblaue Bereich fluktuiert dann um das obere oder untere Ende des Balkens, wie z.B. in der Abbildung gerade F3. Wenn Sie dies bemerken, reagieren Sie so schnell wie möglich mit dem Drücken der Taste der zugehörigen Skala (F1- F4), um diese zu normalisieren.
Tracking-Aufgabe
In der Tracking-Aufgabe geht es darum, das runde Zielobjekt mit dem Joystick innerhalb der rechteckigen Box in der Mitte des Fensters zu halten. Dabei gilt: je näher an der Mitte, desto besser. Mit dem Joystick haben Sie Kontrolle über das Zielobjekt. Dabei bewegt sich das Objekt in die Richtung, in die Sie den Joystick bewegen. Wenn das Objekt nicht gesteuert wird, wird es sich von der Mitte wegbewegen. Versuchen Sie, durch Bewegungen des Joysticks diese Ausbrüche zu kompensieren und so das Zielobjekt in der Mitte zu halten. Wenn das Zielobjekt sich von der Mitte wegbewegt, versuchen Sie, es so schnell wie möglich wieder dorthin zurückzubewegen.
Wenn der Modus auf „Automatic“ umschaltet (erkennbar an dem Indikator rechts unten oder daran, dass sämtliche Anzeigen ausgegraut werden), kann nicht mit dem Zielobjekt interagiert werden, bis der Modus wieder auf „Manual“ umgeschaltet wird.
Abbildung in dieser Leseprobe nicht enthalten
Figure 2-3. Tracking Task - target inside desired area
Abbildung in dieser Leseprobe nicht enthalten
Figure 2-4. Target outside desired area
Während der anfänglichen Trainingsphase haben Sie Gelegenheit, auszuprobieren, wie das Zielobjekt auf Joystick-Bewegungen reagiert.
Kopfrechenaufgabe
Sie werden ca. alle sieben Sekunden über die Kopfhörer eine gesprochene Zahl (X) hören. Bitte rechnen Sie im Kopf X - 5 und sprechen Sie Ihr Ergebnis laut aus. Der Versuchsleiter wird die Richtigkeit Ihres Ergebnisses prüfen und vermerken, aber kein Feedback geben. Falls Sie kein Ergebnis nennen, zählt dies als Fehler.
Inzwischen konnten Sie alle Aufgaben kennenlernen. Jetzt werden wir allmählich - zunächst als Training - beginnen, gleichzeitig Aufgaben durchzuführen.
Die „Countdown“-Vibration markiert den Beginn jedes Blockes, in dem die TSDT gefordert ist. Wenn zusätzlich Tracking oder Systemüberwachung gefordert ist, klicken Sie bitte auf „Save All“ (bzw. drücken der „Enter“-Taste im ersten Block) um den Block für diese Aufgaben ebenfalls zu starten. Die Kopfrechenaufgabe wird vom Versuchsleiter gestartet.
In jedem Block muss die von der Versuchsleitung angesagte Aufgabenkombination (z.B. Tracking + TSDT) 5 Minuten lang erfüllt werden (im Training ggf. kürzer). Am Ende jedes Blockes öffnet sich ein Fenster zum Abgeben Ihres Workload-Ratings. Wenn Sie mit Ihrem Rating fertig sind, können Sie, wenn nötig, eine Pause machen. Wenn Sie wieder bereit sind, sagt die Versuchsleitung die nächste Aufgabenkombination an. Sowie Sie auf „Save All“ im Rating-Fenster klicken, startet der nächste Block. Zeitgleich wird die Versuchsleitung ggf. die übrigen Aufgaben dazuschalten.
Tracking, Systemüberwachung und Kopfrechnen haben immer Vorrang gegenüber der Vibrationserkennung.
Wenn Sie bei steigender Schwierigkeit nicht mehr auf die Vibrationen achten können, raten Sie einfach, also beantworten Sie den Reiz mit zufälligem Knopfdruck. Es ist immer besser, einen Fehler zu machen, als eine Vibration ganz zu verpassen. Soweit es möglich ist, erfüllen Sie bitte unter dieser Bedingung trotzdem alle Aufgaben so gut wie möglich.
Einverständniserklärung
Sehr geehrterTeilnehmer / Sehr geehrte Teilnehmerin, herzlich willkommen zu meiner Studie! Ich freue mich, dass Sie mich bei meiner Datenerhebung unterstützen möchten. Ich versuche Workload, also kognitive Beanspruchung, zu messen. Dafür brauche ich Probanden, die eine Aufgabenbatterie erfüllen. Währenddessen werde ich meine Messungen vornehmen.
Damit Sie an dieser Studie teilnehmen zu können, benötige ich Ihre informierte Zustimmung. Mit Ihrer Unterschrift zu diesem Dokument bestätigen Sie, dass ...
... Sie darüberaufgeklärtwurden, dass es sich bei derdurchgeführten Studie um die Datenerhebung für eine Bachelor-Arbeit im Fach Psychologie handelt.
... Sie damit einverstanden sind, dass Ihre Daten für den Zweck dieser Studie anonymisiert aufgezeichnet, verarbeitet und ggf. publiziert werden. Nach der Verarbeitung können Ihre Daten nicht mehr auf Ihre Person zurückgeführt werden.
... Ihnen bewusst ist, dass Sie Ihre Teilnahmejederzeit abbrechen können, ohne dass Ihnen daraus Nachteile entstehen.
... Sie nicht unterAlkohol- oder Drogeneinfluss stehen sowie ausreichend geschlafen haben.
... (für Studenten) Sie mindestens 18 Jahre alt sind.
Persönliche Angaben
Age (Years) Bitte geben Sie Ihr Geschlecht an: Tragen Sie eine Brille oder Kontaktlinsen? Welche Hand ist bei Ihnen dominant? Was ist Ihre derzeitige Tätigkeit?
Erfahrung mit Flugsimulationen oder ähnlichen Computerspielen
Abbildung in dieser Leseprobe nicht enthalten
Equipment
- Flightstick mit TSDT-Knöpfen
- Lenovo-Laptop mit TSDT-Software und AudCalc
- HP-Laptop mit MATB-II
- LadekabelfürLaptops
- MäusefürLaptops
- ExterneTastatur für HP-Laptop
- Kopfhörer
- Stift & Papier für Notizen
- Pflaster-Tape
- Anti-Septikum
Aufbau
- Laptops & Geräte an Strom anschließen
- VP-Platz einrichten: TSDT, Flightstick, Tastatur
- TSDT-Funktionalität sicherstellen
- Starten der benutzten MATB-EVENT-xmls zum Testen auf Fehler (Kompilierung)
- Löschen der entstandenen leeren MATB-Daten
- Tape für TSDT-Vibrator vorbereiten
Einführung derVP
Abbildung in dieser Leseprobe nicht enthalten
EinführungTSDT
- Instruktion TSDT (S.2)
- „Ich sehe Ihre Leistungsdaten in Echtzeit. Damit kann ich kontrollieren, ob die Aufgabe richtig verstanden wurde, das Equipment funktioniert oder irgendwelche Unregelmäßigkeiten auftreten. Ansonsten werde ich keine Rückmeldung geben."
- Stelle finden und mit TSDT-Vibrator verkabeln
- TSDT testen: „Spürt man den Unterschied?"
- Starten einer manuellen TSDT-Session „Training-VPOX" (2 min, wenn nötig länger, taskID 1)
- Starten des PsychoPy-Experiments AudCalc-Training.psyexp
Training
Abbildung in dieser Leseprobe nicht enthalten
Randomisierungsplan
Abbildung in dieser Leseprobe nicht enthalten
Häufig gestellte Fragen
Was ist der Zweck dieser Arbeit?
Diese Arbeit befasst sich mit der theoretischen Herleitung und experimentellen Überprüfung von Workload-Messung mit einer taktilen Signalentdeckungsaufgabe (Tactile Signal Detection Task, TSDT).
Was ist die Tactile Signal Detection Task (TSDT)?
Die TSDT verbindet den experimentellen Aufbau der Detection Response Task (DRT) mit der Signalentdeckungstheorie. Es ist eine Signalentdeckungsaufgabe mit taktiler Stimulusmodalität, die hinsichtlich Trefferrate (Hit Rate) und Rate an falschen Alarmen (False Alarm Rate) ausgewertet werden kann. Daraus wird der Kennwert der Sensitivität für Signale errechnet.
Wie wurde der Workload in der Studie manipuliert?
Der Workload wurde durch eine Variation der Anzahl der Aufgaben manipuliert, die Probanden gleichzeitig mit der TSDT erfüllen mussten.
Was waren die wichtigsten Ergebnisse der Studie?
Die Studie zeigte einen signifikanten Effekt der Workload-Stufe auf die Sensitivität. Die Sensitivität unterschied sich signifikant zwischen den niedrigeren Workload-Stufen, nicht aber zwischen den beiden höchsten Stufen. Es gab eine starke negative Korrelation (r = -.98) zwischen Sensitivität und dem NASA Task Load Index (NASA-TLX).
Was ist der NASA Task Load Index (NASA-TLX)?
Der NASA-TLX ist ein etablierter Fragebogen zur Messung von subjektivem Workload. In diesem Fragebogen erfolgt die Erfassung von Workload über Selbstbericht auf einer kontinuierlichen Skala von niedrig bis hoch (0 bis 100). Der NASA-TLX umfasst die Dimensionen geistige, körperliche und zeitliche Anforderungen, Leistungseinschätzung, Anstrengung und Frustration.
Was ist Sensitivität in Bezug auf die Signalentdeckungstheorie?
Sensitivität bezeichnet die Fähigkeit des Probanden, zwischen Signal und Distraktor zu unterscheiden. Dabei spielen sowohl die objektiven Eigenschaften des Stimulus, als auch die Fähigkeit des Probanden zu deren Wahrnehmung eine Rolle.
Was ist das Kriterium in Bezug auf die Signalentdeckungstheorie?
Die Antworttendenz äußert sich in einem individuell und situativ festgelegten Entscheidungkriterium. Signale werden als solche identifiziert, je nachdem ob sie die Schwelle des Entscheidungskriteriums über- oder unterschreiten. Ein strengeres Kriterium beugt False Alarms vor, erhöht aber das Risiko für Misses. Bei einem liberaleren Kriterium drehen sich diese Tendenzen um.
Welche anderen Aufgaben wurden neben der TSDT verwendet?
Neben der TSDT wurden Tracking (mit Joystick), Systemüberwachung (Reaktion auf Kontrolleuchten und Skalen) und Kopfrechnen (Subtraktion von Zahlen) verwendet.
Was sind mögliche Limitationen der Studie?
Zu den Limitationen gehören eine nicht-repräsentative Stichprobe, potentielle Konfundierungen durch auditive Wahrnehmung der Vibrationen und die Tatsache, dass die Overload-Schwelle nicht abgebildet wurde.
Was sind offene Fragen für zukünftige Forschung?
Offene Fragen umfassen den Umgang mit Nicht-Antworten in der SDT, die Rolle des Kriteriums, die Messung von Kontext- und Müdigkeitseffekten und die Exploration des Verhältnisses von Aufgabenschwierigkeit, Sensitivität und subjektivem Workload im Bereich um die Overload-Schwelle.
Was ist die Bedeutung der gefundenen Korrelation zwischen Sensitivität und NASA-TLX?
Die Korrelation (r = -.98) stützt die theoretische Grundlage der Signalentdeckungsaufgabe für den Einsatz zur Workload-Messung. Sie bestätigt ein angenommes Verhältnis der beiden Werte, wie es bereits in der Literatur beobachtet wurde.
- Quote paper
- Leonie Manzke (Author), 2019, Sensitivität als Workload-Maß in einer taktilen Signalentdeckungsaufgabe, Munich, GRIN Verlag, https://www.grin.com/document/1007200