Suchmaschinen und Informationsüberlastung im Web
Web-Nutzung ist häufig auch Suchmaschinen-Nutzung. Das legen die Erkenntnisse aus der W3B-Studie von Fittkau und Maaß nahe. 73,5% aller Befragten in der zehnten Welle 2 antworteten auf die Frage: „Wie machen Sie WWW-Adressen bzw. -Seiten ausfindig, die Sie vorher noch nicht kannten? (Mehrfachnennungen möglich)“ mit der Antwort „Ich suche gezielt danach“, knapp drei Prozentpunkte weniger erhielt die Antwort „durch Suchmaschinen / Navigationshilfen / Webkataloge“.
Suchmaschinen liegen auf Platz zwei im Ranking nach täglichen Nutzungsminuten, hinter der Kategorie „News/Informationen/
Unterhaltung“. Das ergab die Auswertung von MediaMetrix für den
Mai 2000(3). Diese Ergebnisse zeigen, daß Meta-Medienanwendungen in der Webnutzung stark etabliert sind. Gezieltes Suchen ist die häufigste Aktivität, das Mittel der Wahl dazu sind Suchdienste.
Ein interessanter Kontrast ergibt sich, wenn man das mit Abstand am größten wahrgenommene Problem der Befragten dagegenstellt: Auf die Frage: „Was sind für sie persönlich die größten Schwierigkeiten, wenn sie das World Wide Web bzw. Internet nutzen?“ nannten
in der zehnten Welle der W3B-Befragung 56,6% den Grund „Daß die Informationsmenge im WWW zu groß ist, um schnell das Gesuchte zu finden“. Dabei waren sich Internet-Neulinge (dort definiert über eine Nutzungsdauer von unter zwei Jahren) und Internet-Erfahrene
(Nutzungsdauer: zwei Jahre und mehr) einig, ihre Bewertungen unterscheiden sich nur in wenigen Zehntelprozentpunkten.
(Fittkau, Maaß 2000a, „Was sind für Sie persönlich die größten
Schwierigkeiten, wenn Sie das World Wide Web bzw. Internet nutzen?“). Viele Webnutzer setzen also Suchdienste ein, um gezielt zu suchen – gleichzeitig fühlt sich die Mehrheit von der Informationsmenge des Web überwältigt.
[...]
______
(2) über 30.000 deutsche Befragte, Erhebungszeitraum
vom April/Mai 2000, vgl.
Fittkau, Maaß 2000a
(3) Datenbasis: geloggte Nutzung eines
repräsentativen Samples von US-Nutzern,
die mindestens einmal im Monat
auf das Web zugegriffen hatten, Mediametrix
2000, siehe die Grafik „Average
Minutes Spent Per Usage Day“
Inhalt
0 Vorbemerkungen
1 Suchmaschinen und Informationsüberlastung im Web
1.1 Das Web als strukturell und inhaltlich komplexer Informationsraum
1.1.1 Dimensionen der Online-Forschung
1.1.2 Das Web als Informationsraum
1.1.3 Inhaltliche Komplexität im Web
1.2 Meta-Medienanwendungen
1.2.1 Begriffsdefinition und Aufgaben von Meta-Medienanwendungen
1.2.2 Typen von Meta-Medienanwendungen
1.2.3 Komponenten von Suchmaschinen
1.2.4 Herausforderungen und Lösungsstrategien in der Entwicklung von Suchmaschinen
2 Web-Nutzung als dynamischer Selektions- und Entscheidungsprozeß
2.1 Navigation per Hyperlink und Meta-Medienanwendung
2.2 Hunting, Grazing, Browsing: Drei Typen der Web-Suche
2.3 Selektion im Web als Entscheidungssequenz
2.4 Rahmenmodell der Suchmaschinen-Interaktion von Shneiderman
2.5 Vorschlag eines dynamischen Modells der Web-Informationssuche mit Suchmaschinen
2.6 Erforderliche Eigenschaften der Nutzer in den Interaktionsphasen
2.7 Sprache als Interaktionsproblem
3 Forschungsleitende Annahmen
4 Untersuchungsdesign
4.1 Logdateien als Erhebungswerkzeug in Web-Experimenten
4.1.1 Verdeckte Beobachtung mit Logdateien
4.1.2 Störfaktoren in Web-Experimenten
4.2 Auswahl und Hintergrund des verwendeten Suchdienstes
4.2.1 Eine Suchmaschine, nicht viele
4.2.2 Gründe für Altavista.de
4.2.3 Geschichte und Marktposition von Altavista
4.3 Konzeption der Recherchefragen und Fragebögen
4.3.1 Auswahl der Recherche-Fragen
4.3.2 Fragebogen zu Demographie, Web- und Suchmaschinennutzung
4.3.3 Fragebogen zur Beurteilung der vorangegangenen Recherche
4.3.4 Multiple-Choice-Test zum Suchmaschinenwissen
4.4 Ablauf des Experiments
4.4.1 Vorversuche
4.4.2 Rekrutierung der Versuchspersonen
4.4.3 Vorbereitung des Experiments
4.4.4 Durchführung des Experiments
4.4.5 Nachbereitung des Experiments
4.4.6 Störung während des Experiments
5 Ergebnisse
5.1 Charakterisierung der Versuchspersonen-Gruppen
5.1.1 Demographische Daten im Vergleich
5.1.2 Web-Erfahrung im Vergleich
5.1.3 Suchmaschinen-Nutzung im Vergleich
5.1.4 Suchmaschinen-Wissen im Vergleich
5.2 Beurteilung des Rechercheerfolges anhand abgelegter Lesezeichen
5.2.1 Vorgehen bei der Bewertung der Lesezeichen
5.2.2 Ergebnisse für Aufgabe eins
5.2.3 Ergebnisse für Aufgabe zwei
5.2.4 Erfolgreiche Spitzengruppe identifiziert
5.2.5 Nutzer und ihr Rechercheerfolg
5.3 Kommentare der Versuchspersonen zu den Aufgaben
5.3.1 Kategoriensystem der Kommentare
5.3.2 Zusammenfassung der sortierten Kommentare
5.4 Bewertungen der Aufgaben durch die Versuchspersonen
5.4.1 Bewertungen zu Aufgabe eins
5.4.2 Bewertungen zu Aufgabe zwei
5.4.3 Zusammenfassung der Bewertungen
5.5 Nutzereingaben in der Formulierungs- und Verfeinerungsphase
5.5.1 Kenndaten der Suchphrasen
5.5.2 Wortwahl bei den Suchbegriffen
5.5.3 Rechtschreibung der Suchbegriffe
5.5.4 Nutzung der Suchoptionen
5.5.5 Anwendung der Suchsyntax
5.5.6 Abwandlung von Suchphrasen
5.5.7 Nutzung der Ergebnislisten
5.5.8 Merkmale erfahrener und unerfahrener Nutzer in den Formulierungs- und Verfeinerungsphasen
5.6 Suchmuster
5.6.1 Logdateien und Suchmuster
5.6.2 Kategorisierung der Aktionen in Suchmustern
5.6.3 Lineare Visualisierung von Suchmustern
5.6.4 Visuelle Identifizierung globaler, charakteristischer Suchmuster
5.6.5 Visueller Vergleich gruppenspezifischer Suchmuster
5.6.6 Automatische Auszählung von Aktionsabfolgen
5.6.7 Auszählung globaler, charakteristischer Suchmuster
5.6.8 Auszählung charakteristischer Suchmuster nach Aufgaben
5.6.9 Auszählung charakteristischer Suchmuster nach Versuchspersonen-Gruppe
5.6.10 Auszählung charakteristischer Suchmuster bei den Top5
5.6.11 Die Suchmuster erfahrener, unerfahrener und erfolgreicher Versuchspersonen
5.6.12 Vorschläge für erweiterte Suchmuster-Auswertungen
6 Vorschläge und Ausblick
7 Anhang
7.1 Literatur
7.2 Beispiel-Websites
7.3 Glossar
7.4 Versuchsanweisungen und Fragebögen
7.5 Visualisierte Suchmuster
7.6 Ausgezählte Suchmuster
0 Vorbemerkungen
- Das Thema der Arbeit bringt es mit sich, daß einige der Zitate und Beispiele direkt auf Dokumente im World Wide Web verweisen. Daher nenne ich bei Bedarf Gliederungspunkte oder charakteristische Überschriften des Web-Dokumentes, da Seitenangaben dort verständlicherweise fehlen. Der vollständige URL für diese Texte steht bei abgeschlossenen Online-Arti- keln im Literaturverzeichnis, bei illustrativen Beispielen direkt in Fußnoten und in einer alphabetischen Liste der Beispiel-Websites.
Es ist anzunehmen, daß einige Links durch die Dynamik des Netzes bald nicht mehr gültig sein werden (Stand: 24.7.2000).
- Es liegt in der Natur des Gegenstandes, daß sich IT-Fachsprache an einigen Stellen der Arbeit nicht vermeiden läßt. Zwar führe ich Begriffe meist auch im Haupttext ein; sollten trotzdem Fragen offen bleiben, besteht eine gute Chance, daß sie im Glossar beantwortet werden, das der Leser im Anhang der Arbeit findet.
- Ich verwende der Einfachheit halber die männliche Form einiger Begriffe, wie z. B.„Nutzer" oder „Anwender". Weibliche Nutzerinnen oder Anwenderinnen sind mit eingeschlossen, schließlich stellen sie momentan ca. 26% der deutschen Nutzerschaft.[1]
- Mein Dank geht an Henning Emm- rich, der nach meinen Wünschen ein Filter-Skript programmierte - ohne es wäre die Proxy-LogfileUntersuchung nicht in diesem Umfang möglich gewesen.
- Ich bedanke mich ebenfalls bei Stephan Noller vom Lehrstuhl zwei der psychologischen Fakultät der Universität Köln: Er erlaubte mir, sein Web-basiertes Logfile-Musterana- lyse-Programm zu verwenden. Es wurde dort im Rahmen des von der Deutschen Forschungsgemeinschaft eingerichteten Schwerpunktprogrammes „Lesesozialisation in der Mediengesellschaft: Vergleich von Verarbeitungsstrategien von linearen und Hyper-Texten" entwickelt.
1 Suchmaschinen und Informationsüberlastung im Web
Web-Nutzung ist häufig auch Such- maschinen-Nutzung. Das legen die Erkenntnisse aus der W3B-Studie von Fitt- kau und Maaß nahe. 73,5% aller Befragten in der zehntenWelle[2] antworteten auf die Frage: „Wie machen Sie WWW-Adressen bzw. -Seiten ausfindig, die Sie vorher noch nicht kannten? (Mehrfachnennungen möglich)“ mit der Antwort „Ich suche gezielt danach“, knapp drei Prozentpunkte weniger erhielt die Antwort „durch Suchmaschinen / Navigationshilfen / Webkataloge“.
Suchmaschinen liegen auf Platz zwei im Ranking nach täglichen Nutzungsminuten, hinter der Kategorie „News/Informationen/Unterhaltung“. Das ergab die Auswertung von MediaMetrix für den Mai 2000[3]. Diese Ergebnisse zeigen, daß Meta-Medienanwendungen in derWeb- nutzung stark etabliert sind. Gezieltes Suchen ist die häufigste Aktivität, das Mittel der Wahl dazu sind Suchdienste.
Ein interessanter Kontrast ergibt sich, wenn man das mit Abstand am größten wahrgenommene Problem der Befragten dagegenstellt: Auf die Frage: „Was sind für sie persönlich die größten Schwierigkeiten, wenn sie das World Wide Web bzw. Internet nutzen?“ nannten in der zehntenWelle der W 3B-Befra- gung 56,6% den Grund „Daß die Informationsmenge im WWW zu groß ist, um schnell das Gesuchte zu finden“. Dabei waren sich Internet-Neulinge (dort definiert über eine Nutzungsdauer von unter zwei Jahren) und Internet-Erfahrene (Nutzungsdauer: zwei Jahre und mehr) einig, ihre Bewertungen unterscheiden sich nur in wenigen Zehntelprozentpunkten. (Fittkau, Maaß 2000a, „Was sind für Sie persönlich die größten Schwierigkeiten, wenn Sie das World Wide Web bzw. Internet nutzen?“). Viele Webnutzer setzen also Suchdienste ein, um gezielt zu suchen - gleichzeitig fühlt sich die Mehrheit von der Informationsmenge des Web überwältigt.
Der Wahrnehmung, das Web sei komplex und unvorstellbar umfangreich, kann niemand widersprechen: Angebo- te und Darstellungsformen differenzieren sich weiter aus, während das quantitative Wachstum sich beschleunigt (vgl. Lawrence, Giles 1999, 107 und Cyveil- lance 2000, „Internet Exceeds 2 Billion Pages“).
Damit wird für den Nutzer die Wahl immer mehr zur Qual, möchte er ausgetretene Online-Pfade zu bekannten und bewährten „Content-Providern“ verlassen, um von der lockenden AngebotsVielfalt zu profitieren. Suchdienste sind angetreten, diese Wahl zu unterstützen - sie machen das Unsichtbare sichtbar und bieten Anschlußoptionen, wo der Überblick fehlt. Ohne eine automatische Vorsortierung der Interaktions-Möglichkeiten ist die vielseitige und zielgerichtete Selektion von Netzquellen nicht mehr denkbar.
Der Preis der Unterstützung: Die Mittelsmänner der Webnutzung bringen ihre eigenen Regeln und blinden Flecken mit. Wer sich nicht auf ihre Sprache einläßt und sich nicht penibel genau auszudrücken weiß, wird mit ungenauen Vorschlägen überschwemmt. Jede Frage nach Ordnung verhallt dann ungehört in einer Black Box aus Firmengeheimnissen und Statistik-Arkana. Trotzdem gehören Suchdienste zu den Angeboten im Netz, die am meisten frequentiert werden (für Deutschland siehe Fittkau, Maaß 1999; 33).
Aus dieser Spannung ergibt sich die grundlegende Frage, der diese Arbeit nachgeht: Wie gehen Web-Sucher vor? Wie interagieren die Menschen mit den Meta-Medienanwendungen imWeb?
1.1 Das Web als strukturell und inhaltlich komplexer Informationsraum
1.1.1 Dimensionen der OnlineForschung
Online-Forschung, die sich auf das WWW konzentriert, kann verschiedene Perspektiven einnehmen, analog zum Aufbau des Gegenstandes.
Die technische Infrastruktur bildet das Fundament für alle Internet-Medienanwendungen. Ihre Architektur ist verteilt und heterogen. Grundlegende Datenübertragungsprotokolle und Dokumentenformate sind standardisiert und global etabliert. Der Rahmen für mögliche Dienste ist damit vorgegeben; viele einzelne Anbieter machen sich das Fundament zunutze. Unter diesem Blickwinkel besteht das Web aus Netzwerk- Hard- und - Software, Netzwerk-Protokollen und standardisierten Austauschformaten. Räumlich getrennte Maschinen transferieren strukturierte Daten.
Das WWW als Informationsraum wird auf einer anderen Ebene konstituiert: durch die Struktur von Relationen innerhalb von Dokumenten und Doku- mentenclustern. Hyperlinks erschließen den Raum: Ihre Anordnung prägt seinen Charakter. Variabel breite und tiefe, schwache und starke Hierarchien, vielfältige und sparsame Link-Geflechte strukturieren die Grenzen, machen den Zugriff auf andere Knoten im Netzwerk wahrscheinlicher oder weniger wahrscheinlich. Dabei wandelt sich der Raum in unterschiedlichen, überlagernden Intervallen: Manche Relationen bleiben über Jahre stabil, manche ändern sich in bekannten Abständen, manche entstehen angesichts eines bestimmten Ereignisses für den Bruchteil einer Sekunde und sind daraufhin verschwunden.
Die technische Bereitstellung und Beschaffenheit der Relationen bestimmt die Modalität der Vernetzung: Ohne Hardware-Netz kein Protokoll, ohne Protokoll keine Dokumenten-Übertragung, ohne Dokumenten-Übertragung kein komplexes Netz aus Links. Was ein Link ist und wie er funktioniert, ist technisch festgelegt. Unter diesen Voraussetzungen bildet sich ein neues, komplexes Geflecht von Optionen, die gleichzeitig zur Verfügung stehen - es ist nicht zeitlich oder räumlich, sondern ein Netz in der Erwartung potentieller Nutzung.
Die Nutzer Web-basierter Dienste realisieren diese Optionen in ihrer eigentümlichen Weise. Sie wählen Alternativen innerhalb eines Dokumentes und über Dokumentengrenzen hinweg aus, weisen den Inhalten Bedeutungen zu und spekulieren, welche Inhalte sich hinter Dargestelltem verbergen. Diese Selektionsleistungen geschehen unter den individuellen Vorbedingungen der Nutzer: ihrem Wissen, ihren Erfahrungen, ihren Gewohnheiten, ihrer Motivation und ihrer Zeit.
Der Frage, was die Menschen mit den Netz-Anwendungen machen, muß meiner Meinung nach vor dem Hintergrund nachgegangen werden, daß Technik, Inhalte und ihre Strukturierung den Rahmen für die Nutzung bilden. Daher möchte ich zunächst einen genaueren Blick auf verschiedene Aspekte der Komplexität des Web als Informationsraum werfen.
1.1.2 Das Web als Informationsraum
Das charakteristische Merkmal des World Wide Web ist die Möglichkeit, darin per Hyperlink von einem SeitenElement auf ein anderes Dokument zu verweisen. Diese Funktion ist in der Hypertext Markup Language (HTML) angelegt - der derzeitigen Grundlage des überwiegenden Anteils aller Web-Dokumente.
Was in kleinen oder hoch strukturierten Dokumentensammlungen noch nachvollziehbar gestaltet werden kann, bringt Probleme mit sich, wenn die Anzahl von Dokumenten und ihre Relationen auf hohem Niveau rapide steigen: Im Juni 2000 wurden Größenordnungen von ca. 2,1 Mrd. Dokumenten im internationalen Web erreicht (siehe Grafik „Growth of the Internet“ in Cyveillance 2000). Bei einem Mittel von 5,6 externen Links pro Dokument ergibt sich eine Gesamtzahl von 11,2 Mrd. Links im gesamten Web. Steigt die Anzahl an Web-Dokumenten mit der prognostizierten Rate von 7 Mio. Dokumenten pro Tag, ist zu erwarten, daß sich die Gesamtanzahl im Januar 2001 verdoppelt haben wird (ebd.).
Detaillierte Analysen des indexier- baren Web ergaben, daß die Wahrscheinlichkeit, durch einfaches Browsen zu einer bestimmten Zielseite zu gelangen, je nach Ausgangspunkt sehr unterschiedlich ist. In einer Momentaufnahme per Suchmaschinen-Crawler ließen sich 1999 vier Regionen im WWW identifizieren (prozentualer Anteil an der StichprobenGesamtanzahl der Dokumente jeweils in Klammern): Erstens ein Kern miteinander eng per Hyperlink verknüpfter Seiten (ca. 30%), zweitens eine Gruppe von Seiten, die zu diesem Kern hin führte, jedoch nicht von ihm aus erreichbar war (ca. 24%), drittens eine Gruppe, die von Kernseiten verlinkt war, jedoch keinen Weg zurück bot (ca. 24%), und viertens einige lange Hyperlink-Ketten, die gar nicht mit dem Kern verbunden waren (ca. 22%) (Basisdaten siehe Broder, Kumar, Maghoul u.a. 2000, „Experimental Data“).
Solche quantitativen Studien mögen fehlerbehaftete Schätzungen sein, da sie auf Daten basieren, die technisch bedingt weder komplett noch aktuell sein können. Sie beruhen nämlich auf automatisch gezogenen Stichproben, die durch Suchmaschinen-ähnliche CrawlingTechniken gewonnen werden (siehe Kapitel 1.2.3). Einen grundlegenden Hinweis bieten sie jedoch: Web-Nutzung sieht sich überkomplexen Dokumenten- clustern gegenüber. Teile des Netzes sind Nutzern unzugänglich oder mit vertretbarem Zeitaufwand nicht aufzufinden, solange Browsing-Strategien entlang bestehender Link-Strukturen das Mittel zur Navigation sind (vgl. Abb. 9 in Broder, Kumar, Maghoul u.a. 2000).
1.1.3 Inhaltliche Komplexität im Web
Während die globale Verlinkungsstruktur sicher das augenfälligste Merkmal des WWW darstellt, besitzt es noch weitere Komplexitäts-Ebenen: Die NetzNutzer sehen sich einem inhaltlich vielgestaltigen, dynamischen Komplex gegenüber.
So haben sich in der kurzen Evolutionsgeschichte des WWW weiche Genres herausgebildet. Es lassen sich zum Beispiel News-Sites, Chat-Sites, Online- Email-Sites, Business-to-Business-, Busi- ness-to-Customer- und Customer-to- Customer-eCommerce-Websites und Auktions-Sites, Firmenpräsentationen, Wissenschafts-Sites, private Homepages sowie die Metadienste Kataloge und Suchmaschinen ausmachen. An jedes dieser Genres - die Liste ist nicht erschöpfend - knüpfen sich Erwartungen der Nutzer, die mit Hilfe der konkreten Websites erfüllt werden sollen. Der Grad der Konventionalisierung ist unterschiedlich hoch: Eine private Homepage kann experimenteller daherkommen als eine Business-to-Business eCommerce- Shopping-Mall, die die Erwartungen ihrer Nutzer mit Blick auf die Effizienz der Interaktionen genauer im Blick haben muß. Mischformen bilden sogenannte Portale, die unter anderem News-, Email-, Shopping- und Metadienste bündeln, um die Nutzer kontinuierlicher und gezielter zum Ziel von Online-Wer- bung machen zu können.
Neben den Genres variieren auch Themen und ihre Darstellungsformen (z. B. aktuelle Nachrichten, Meinungsbeiträge, Dokumentation technischer Spezifikationen, Chatbeiträge), die Diskursformen (one-to-one per Web-Email, one-to-many und many-to-many per Website, Messageboard und Chat), die Sprache und der Grad der Multimodalität.
Auch ist das Web recht arm an Nut- zer-Interface-Konventionen, trotz Konkurrenzkämpfen in einigen Genres, die zu Konsonanz führen - Designs stark frequentierter und erfolgreicher Websites werden häufig binnen kurzer Zeit kopiert.
Schließlich darf nicht vergessen werden, daß sich sämtliche genannten Ebenen im Fluß befinden. Die Halbwertszeit jeder Analyse ist angesichts des Zuwachses an Netzangeboten gering.
Zum Orientierungs-Problem für die Nutzer wird die universelle Vielgestaltigkeit dadurch, daß sie nicht an Bahnen gebunden sind, die Diensteanbieter bereitstellen: Die nächste Website ist nur einen Link, einen Eintrag in der persönlichen Lesezeichen-Liste oder auch eine Empfehlung des persönlichen InformationsAgenten entfernt[4] - das Web wird im Querschnitt genutzt, die Websites sind jedoch bestenfalls auf innere Konsistenz hin konzipiert. Da der Grad der Struktu- riertheit der Dokumente und der Auszeichnung funktionaler Einheiten in Websites variiert, stellt dies ein fundamentales Interaktionsproblem dar.
Erschwert wird die Orientierung dadurch, daß das Netz sich selbst gegenüber semantisch intransparent ist. Zwar bildeten sich schon früh selbstreflexive Strukturen heraus, und zwar in Form von Linklisten, Katalogen und Suchmaschinen - erste Web-Suchdienste gab es schon 1993 (siehe Kapitel 4.2.3). Der Zugriff auf den Sinn von Inhalten ist damit jedoch nur entweder unvollständig und unflexibel durch eine feste BegriffsTaxonomie gegeben wie bei Katalogen oder implizit-unscharf durch statistische Schätzungen auf der Wortebene durch Suchmaschinen.
Visionen des World Wide Web-Konsortiums, ein übergreifendes, semantisches Web zu erschaffen (vgl. den Beitrag „Semantic Web Road map“ von Berners- Lee 1998), haben sich bis zum Juli 2000 noch nicht in umfassenden Implementation niedergeschlagen. Strukturierte Metadaten auf Website- oder sogar Dokumenten- und Seitenelementebene wurden Mitte 1999 nur für einen verschwindend kleinen Teil des Web angeboten (Nur auf 0,3% der untersuchten Websites wurden Metadaten nach dem Dublin Core-Standard eingesetzt. Lawrence, Giles 1999, 108). Damit ist das Netz weiterhin eingeschränkt, was seine Fähigkeit anbelangt, Nutzer bei ihren Selektionsvorgängen inhaltsbezogen und Website-übergreifend zu unterstützen.
1.2 Meta-Medienanwendungen
1.2.1 Begriffsdefinition und Aufgaben von Meta-Medienanwendungen
Angesichts der großen Vielzahl und der Vielgestaltigkeit von Netzquellen spielen Wegweiser eine große Rolle, die die Komplexität des Netzes für seine Nutzer handhabbar zu machen versuchen. Im folgenden soll daher der Begriff „MetaMedienanwendung“ definiert und daraufhin am Beispiel von Suchmaschinen illustriert werden. Die Entscheidung, hier den vermeintlich naheliegenderen Begriff „Meta-Medium“ für Suchdienste zu vermeiden, liegt in verschiedenen Unterscheidungen begründet.
Erstens wird vielfach auf das Internet insgesamt als Medium Bezug genommen. Angesichts der im vorigen Kapitel beschriebenen Variationsbreite von Diensten und Anwendungen scheint mir diese Vereinheitlichung fehl am Platze. Sinnvoller läßt sich mit den medialen Phänomenen im Netz umgehen, wenn die konkrete Anwendung genannt wird, die dem jeweils zu Beschreibenden zugrunde liegt. Damit sind auch nicht die Basisdienste und Subnetze des Internet wie World Wide Web, FTP oder Usenet gemeint - deren Grenzen verschwimmen stetig durch Integration ins Web. Vielmehr rückt der Begriff „Anwendung“ die Funktion in denVordergrund, welche ein Netz-Dienst für seine Nutzer erfüllt. Wenn schon berechtigte Zweifel bestehen, das Internet vereinfachend als Medium zu bezeichnen, ist der Begriff des Meta-Mediums noch irreführender, da er einen übergreifenden Charakter impliziert, der faktisch nicht existiert.
Zweitens sind Suchdienste in immer mehr andere Angebote integriert: als Kern- oder Zusatzangebot in PortalWebsites oder als kleine Navigationshilfe auf der Ebene von Websites. Daher ist der Begriff „Meta-Medienanwendung“ besser geeignet, kleinere Implementationen miteinzubeziehen.
Drittens ist der Begriff Meta-Medium schon in anderen, jedoch verwandten Kontexten mit Bedeutung belegt. Rötzer nennt in seinem Artikel „Aufmerksamkeit und die Medien. Weitere Überlegungen zur primären Ressource der Informationsgesellschaft.“ die Aufmerksamkeit als Meta-Medium der Mediennutzung (Rötzer 1996, erster Absatz) andere Autoren verweisen auf den integrierenden Charakter der digitalen Medien, indem sie den Computer als MetaMedium bezeichnen.
Als Meta-Medienanwendung im Web verstehe ich Dienste, die über eine große Zahl von veränderlichen Dokumenten hinweg zielgerichtete Selektion ermöglichen. Sie sind keine statischen Dokumente, die auf andere statische Dokumente verweisen, analog zu Karteikarten über Bücher in Bibliotheken, sondern dynamische Selektions-Strukturen für eine heterogene, unüberschaubare, dynamische Datenbasis. Auch Metadienste zweiter Ordnung, also zum Beispiel Suchmaschinen für Suchmaschinen, fallen unter diesen Begriff.
Meta-Medienanwendungen dienen der Verringerung von Komplexität, indem sie Navigations-Alternativen für ein Nutzer-spezifiziertes Gebiet ihrer geschätzten Relevanz nach in einer handhabbaren Anzahl präsentieren. Damit strukturieren sie den Informationsraum ihrer Logik gemäß vor und präsentieren dem Nutzer einen Aus- und Querschnitt von Selektions-Optionen. Diese zeitweise Neustrukturierung macht die Realisierung einer Untermenge von Optionen durch den Nutzer wahrscheinlicher.
Meta-Medienanwendungen dienen auch der Verringerung von Ungewißheit, indem sie eine Antwort darauf geben, ob - und wenn ja - in welcher Anzahl Dokumente im Web vorliegen, auf die ein bestimmtes Auswahlkriterium paßt. Da die Eigenlogik vieler Meta-Medienanwendungen in einer „black box“ verborgen ist, ihre Beobachtungskriterien also nicht offenliegen, erhöhen sie paradoxerweise auch die Ungewißheit: Die Frage, warum sie welche Anschlußmöglichkeiten bereitstellen, bleibt für Spekulationen offen. Die nicht-vermit- telte Eigenkomplexität hindert sie also letztlich daran, dem Nutzer Gewißheit zu geben. In Kapitel 1.2.3 werde ich einen Blick in die Mechanismen von Suchmaschinen werfen.
1.2.2 Typen von MetaMedienanwendungen
Auf der Basis der genannten Definition sind verschiedene Ausprägungen denkbar. Aktuell lassen sich im Netz folgende Haupttypen ausmachen, die ich in der Reihenfolge ihrer Komplexität darstelle.
Die einfachste Form von Meta-Medienanwendung ist eine im World Wide Web veröffentlichte Liste an Hyperlinks, die unter einem bestimmten Kriterium von Hand sortiert ist. Je nachdem, wie spezifisch das Sortierungskriterium, wie umfangreich das Gebiet sowie der Anspruch auf Konsistenz, Vollständigkeit und Aktualität ist, kann eine solche Liste Hilfestellungen beim Auffinden unbekannter Websites bieten. Je stringenter und transparenter das Sortierungskriterium, und je häufiger die (manuelle) Aktualisierung, desto nützlicher die Liste.
In den Anfangstagen des World Wide Web ließ sich auf diese Weise der Anspruch auf Vollständigkeit wahren. Unter den Bedingungen, wie sie in Kapitel 1.1.2 geschildert sind, können diese Empfehlungslisten heute nur noch in aller Ausschnitthaftigkeit nützlich sein; kaum ein thematischer Bereich läßt sich noch in überschaubarer Weise so darstellen. Um Empfehlungen und persönliche Präferenzen auszudrücken, kann eine Linkliste jedoch noch ihre Dienste leisten - wenn sie ihren eingeschränkten Fokus verdeutlicht.
Kataloge[5] sind hierarchisch gegliederte, redaktionell ausgewählte, aktualisierte und beschriebene Verweise. Verglichen mit den reinen Linklisten repräsentieren sie einen Schritt hin zur Formalisierung der Sortierungskriterien. Jeder Universal-Katalog besitzt eine Begriffs-Taxonomie, die mit dem Anspruch gepflegt und erweitert wird, alle denkbaren Themen umfassen zu können und den Nutzern möglichst adäquate Hilfestellungen zu liefern. Dadurch, daß die Einordnung der Websites in die Hierarchie vorwiegend von Hand geschieht, decken die Angebote zahlenmäßig nur einen geringen Umfang des Netzes ab und werden voraussichtlich hinter dem stürmischen Netzwachstum immer stärker zurückbleiben. Ein weiterer Kritikpunkt ist die Taxonomie: Das gesamte veröffentlichte Wissen stringent zu ordnen ist ein Unterfangen, das m. E. scheitern muß. Ein schönes, praktisches Beispiel zu den Problemen, die auftauchen, findet sich bei Winkler (1997; 189). Nichtsdestotrotz ist Yahoo das bekannteste und meistgenutzte Such-Angebot im deutschsprachigen Web (siehe Fittkau, Maaß 1999; 68).
Suchmaschinen zeichnen sich dadurch aus, daß sie das Web ohne direkte menschliche Intervention inventarisieren. Sie umgehen das Taxonomieproblem der Kataloge, indem sie nur Worte, aber keine vorkategorisierten Bedeutungen in einen Index einstellen. Dieser verzeichnet Zeichenfolgen und ihre Position auf Webpages und -sites. Mit einer Suchmaske kann der Nutzer auf den Index zugreifen und so Stichwortsuchen durchführen. Gegenüber den Katalogen können Suchmaschinen größere Teile des WWW abdecken: Der im Mai Juli 2000 größte Index von Google umfaßte ca. 50% aller Webpages, andere Angebote lagen zum Teil deutlich darunter (siehe Sullivan 2000, Abb. „Millions of web pages indexed“). Innerhalb der Gruppe der Suchmaschinen gibt es solche, die anstreben, das gesamte Web zu indexieren, solche, die nur Websites zu bestimmten Themen beachten, und solche, die sich auf eine einzelne Website beschränken. Die begriffliche Übersichtlichkeit leidet darunter, daß der Katalog Yahoo eine Suchmaschine einsetzt, um den einfachen Zugriff auf Kategorien und Ergebnisse innerhalb seiner tiefen Hierarchie zu ermöglichen. Anders herum komplementieren viele ursprüngliche Suchmaschinen ihre Suchdienste, indem sie lizensierte Kataloge einbinden.
Meta-Suchmaschinen erhielten Aufmerksamkeit, als bekannt wurde, daß selbst die größten einzelnen Suchmaschinen nur Teile des Web indexieren (vgl. Lawrence, Giles 1998; 100). Der Grundgedanke hinter Meta-Suchmaschinen ist, verschiedene Basis-Suchmaschinen unter einem einheitlichen Interface zusammenzufassen und ihre Ausgaben zu integrieren - dadurch wird die relative Netzabdeckung erhöht. Es entstehen Suchmaschinen zweiter Ordnung. Da Basis-Suchmaschinenindizes sich jedoch teilweise überlappen, gelingt es auch den umfassendsten Meta-Suchern nicht, das gesamte indexierbare Web abzudecken. Prinzipielle Probleme bei der Integration unterschiedlicher Suchsyntaxen und Ergebnismengen haben dazu geführt, daß Meta-Suchmaschinen nicht erfolgreicher geworden sind als Suchmaschinen ersten Grades. Diese vier Haupttypen von Meta-Medienanwendungen im World Wide Web stehen den Nutzern zur Verfügung, daneben viele Mischformen und Spezialangebote.
Eine genaue Beschreibung der Such- maschinen-Grundlagen schließt sich an, um die Rahmenbedingungen für den Nutzer klar herauszustellen.
1.2.3 Komponenten von Suchmaschinen
Suchmaschinen bestehen aus verschiedenen Einzel-Komponenten, die unter dem Dach einer einheitlichen Nutzeroberfläche ineinandergreifen. Zwar ist es für die Suchenden nicht nötig, die genauen Details der Implementation zu kennen. Ein grobes Verständnis der Eigenheiten ist jedoch nützlich: Unterschiede zwischen verschiedenen Suchdiensten zu verstehen und die Suchstrategien darauf abzustimmen erhöht die Chancen auf Erfolg.
Im folgenden sollen die wesentlichen Bestandteile einer klassischen Suchmaschine umrissen werden.[6] Die einzelnen Bausteine sind hier nur angedeutet, denn sie variieren von Dienst zu Dienst. Dazu kommt, daß kaum ein Suchdienstbetreiber gewillt ist, seine Geschäftsgeheimnisse offenzulegen - er öffnete sonst Konkurrenten und Betrügern Tür und Tor, die sich dem Angebot gegenüber am Markt positionieren oder dessen Beschaffenheit für ihre eigenen Werbezwecke ausnutzen wollen.
Der Index bildet den Kern jeder eigenständigen Suchmaschine - dazu gehören in Deutschland neben Altavista unter anderem auch Infoseek, Fireball und Lycos. Dort werden die Worte aufgenommener Seiten effizient abgelegt; nicht im Volltext, sondern in Tabellen zusammen mit ihrer Position, Prominenz und Häufigkeit auf der indexierten Webpage. Nur informationell selektive Worte gelangen in diesen Index, häufig verwendete Begriffe - zum Beispiel Präpositionen und Konjunktionen - sind in Stopwort-Listen vermerkt und werden ignoriert.
Schon auf dieser grundlegenden Ebene zeigt sich, wie die technische Realisierung der Indizes die spätere Nutzung bestimmt: Sie enthalten in der Regel keine Bild-, Video- oder Tondaten oder auch nur strukturierte Verweise auf sie, sondern Zeichenfolgen ohne jegliche semantische Repräsentation. Jeder Sucher kann nur auf diese strukturarmen Daten zugreifen - es sei denn, Suchmaschinenbetreiber fügen weitere Dimensionen hinzu (siehe Kapitel 1.2.4).
Die Indizes sind als Abbild des sich ständig wandelnden WWW nie komplett und nie vollständig aktuell - sie auf- und auszubauen sowie auf Veränderungen abzutesten ist die Aufgabe der sogenannten Crawler, Spider oder Robots. Das sind autonome Programme, die über Hyperlinks durch das Web navigieren und gefundene Seiten zum Index-Server übertragen, der sie daraufhin analysiert und ihre Bestandteile nach verschiedenen Vorgaben in den Datenbestand integriert. Anti-Spam-Algorithmen versuchen zum Beispiel an dieser Stelle, offensichtliche Täuschungsversuche der Inhalteanbieter zu blockieren.
Bei großen Suchdiensten suchen viele Crawler das Netz parallel ab; trotzdem können sie derzeit die Menge an fortlaufend neu bereitgestellten Seiten nicht komplett erfassen. Auf diese Weise erneuert sich der Index in Intervallen von mehreren Wochen[7] und neue Angebote finden ihrenWeg hinein.
Diese Suchmaschinen-Komponente ist auch dafür verantwortlich, daß der Nutzer einige Daten nicht im Index vorfindet: unter anderem Texte, die sich in Bildern verbergen, andere Dokumente als reine HTML-Seiten, Dokumente, die sich erst nach Formulareingaben öffnen, dynamische Dokumente aus Datenbanken, Dokumente, die der Autor vom In- dexieren ausschließen wollte, Dokumente, die in einer tiefen Navigationshierarchie verborgen sind und Dokumente auf langsamen Servern. Die Auswahl der Crawler und damit die Zusammensetzung des zentralen Indexes ist also durch technische Hindernisse eingeschränkt und für den Nutzer vollkommen intransparent. Neben dem in- dexierten Web gibt es einen großen Teil von Dokumenten, der für Suchmaschinen unsichtbar ist, da ihre Crawler nicht auf sie zugreifen können (Lawrence, Giles 1999; 107). Um diese Datenbestände ebenfalls zugänglich zu machen, gibt es spezialisierte Suchdienste.
Den dritten Baustein bildet Retrieval- Software. Sie ermöglicht es den Nutzern, mit Suchoperatoren und Suchworten Suchphrasen zusammenzustellen, die die Suchmaschine verwendet, um Zielseiten in ihrem Index identifizieren zu können (zur Terminologie siehe das Glossar im Anhang, Kapitel 7.3 ). Diese Software stellt also eine Grammatik zur Verfügung, mit Hilfe derer die Suchenden ihr Informationsbedürfnis ausdrücken können. Dazu gehören neben einfachen booleschen Operatoren wie UND, ODER oder NICHT, Plus- und Minuszeichen auch fortgeschrittene Techniken der automatischen Erkennung zusammengehöriger Worte oder standardmäßige Verbindungsvorschriften (z. B. die Annahme, daß zwei hintereinander eingegebene Begriffe alternativ gemeint seien, wie in der Standardsuche von AltaVista). Diese Such-Grammatiken variieren von Angebot zu Angebot in Konzept und Umsetzung, so daß Intensiv-Nutzer mehrerer Suchmaschinen dazu gezwungen sind, jeweils die Eigenheiten zu erlernen.
Viertens verwendet jede klassische Suchmaschine einen Relevanz-Sor- tierungs-Algorithmus für die Ergebnislisten. Das ist eine statistische Software, die identifizierte Zielseiten aus dem Index nach verschiedenen Kriterien gewichtet und sie in eine Reihenfolge bringt. Was „Relevanz“ in diesem Zusammenhang genau bedeutet, ist schwer zu beurteilen, Suchmaschinen-Anbieter veröffentlichen in der Regel ihre Algorithmen nicht. Zu vermuten ist jedoch, daß im allgemeinen neben einfachen Worthäufigkeits-Auszählungen auch Titel, Überschriften, Meta-Tags und das Text-Umfeld der Suchworte auf den Zielseiten Gewicht erhalten.
Dieser Teil der Suchmaschine ist entscheidend für die Nutzer, denn häufig erhalten sie auf ihre Anfragen eine große Zahl von Ergebnissen, die sie nicht erschöpfend auswerten können. Sie greifen meist nur auf die ersten 10-20 Ergebnisse zurück (Jansen, Spink, Bateman u.a. 1998; 15), überfliegen diese und wählen daraus etwas Vielversprechendes aus.
Um diesen ersten Eindruck einer Ergebnismenge möglich zu machen, stellen Suchmaschinen in den Ergebnislisten Überschriften und knappe Auszüge der Zielseiten bereit.
Eine Nutzeroberfläche ermöglicht schließlich fünftens die Interaktion der Nutzer mit der Suchmaschine. Sie können Suchphrasen formulieren, Optionen auswählen und durch Ergebnislisten blättern. Erfahrene Nutzer können in einem speziell auf sie zugeschnittenen Bereich differenzierte Anfragen stellen und die vielschichtigen Angebote des Suchdienstes flexibel ausloten, während der breiten Masse an Suchern in der Standardansicht nur eine Untermenge der Funktionen an die Hand gegeben wird.
1.2.4 Herausforderungen und
Lösungsstrategien in der Entwicklung von Suchmaschinen
Das rapide Wachstum des World Wide Web in Breite, Tiefe, Anwendungen und Nutzerschaft zwingt die Suchdienste zur ständigen Anpassung ihrer Angebote. In der folgenden knappen Darstellung werden verschiedene Entwicklungen deutlich, die dazu beitragen sollen, daß Suchmaschinen trotz der genannten Schwierigkeiten wertvolle Selektions-Instrumente bleiben. Kurze InnovationsIntervalle in diesem Markt können jedoch dazu führen, daß die aufgeführten Zahlen und Beispiele zum Zeitpunkt der Lektüre bereits überholt sind.
Den Diensten fällt es schwer, mit dem quantitativen Zuwachs des Netzes Schritt zu halten. Der Index-Anbieter Inktomi schätzte im Januar 2000 allein das index- ierbare Web auf eine Milliarde Seiten (Inktomi 2000) und nahm für sich in Anspruch, all diese Seiten analysiert zu haben, um die 500 Mio. nützlichsten daraus zur Verfügung stellen zu können. Eine frühere Studie kam zu einem geringeren Ergebnis (800 Mio. Dokumente im Februar 1999, Lawrence, Giles 1999; 107), während die aktuellste im Juli 2000 verfügbare von über 2,1 Mrd. ausgeht (vgl. Cyveillance 2000, „Internet Exceeds 2 Billion Pages“). Daß nicht einfach alle Dokumente in einem Index verfügbar sind, liegt am technischen Aufwand und Abwägungen wirtschaftlicher Art. Es findet derzeit ein Konkurrenzkampf zwischen den Anbietern statt: Nachdem in einer Studie veröffentlicht wurde, daß gängige Indizes mit dem rapiden Netzwachstum nicht mithalten konnten (vgl. Lawrence, Giles 1998; 98), rüsteten die großen Betreiber kontinuierlich ihre Index-Kapazitäten auf. Dieser Trend hält derzeit an (siehe Sullivan 2000; Grafik: „Search Engine Sizes Over Time“).
Kaum ein großer Suchdienst beschränkt sich zudem nur auf einen Index als Quelle. Nicht allein explizite MetaSuchmaschinen greifen auf fremdes Material zurück - Suchmaschinen integrieren unter anderem redaktionell erstellte Kataloge[8].
Skalierbarkeit der Indizes ist für Suchmaschinenbetreiber ein zentrales Thema (vgl. Kirsch 1998, 5: „Living in a world of an infinite number of documents“). Wann Nutzer davon ausgehen können, sicher alle indexierbaren Dokumente mit einer Anfrage zu erfassen, ist noch nicht absehbar.
Neben verstärktem Crawlen in die Breite gibt es aber auch Spezialisierungsstrategien: Ein inhaltlich kohärenter Index, der auf einem thematischen Teilgebiet umfassend ist, kann thematisch auch zielgenauere und inhaltlich relevantere Suchergebnisse bereitstellen. Mischformen haben sich ebenfalls etabliert: Meta-Suchmaschinen für spezialisierte Suchdienste versuchen, thematische Einzel-Indizes wieder unter einer Oberfläche zu integrieren.
Damit zusammenhängend verhindert die Dynamik der Webdaten eine Beobachtung in Echtzeit. Die Indizes haben nicht nur blinde Flecken: Je mehr Dokumente sie beobachten, desto größer wird auch das Aktualitätsproblem, denn Beobachtungen finden überschneidend von mehreren Crawlern zu unterschiedlichen Zeiten und in unterschiedlichen Intervallen statt. Weder werden alle Indexierungen zur gleichen Zeit vorgenommen, noch sind zum Zeitpunkt des späteren Zugriffes darauf notwendigerweise Inhalte und Verweise noch aktuell.
Änderungen im Web werden nicht sofort in den Index übernommen, sondern mit einer Verzögerung von Tagen bis zu mehreren Wochen. Die Suchmaschine ist also ständig veraltet, und zwar für jedes Dokument in einem anderen Maße. Links aus den Ergebnislisten heraus führen ins Leere, da die Ursprungs-Website aktuell nicht mehr an dem Ort zu finden ist, wo der Crawler sie vorfand - das Resultat wäre eine Fehlerseite. Ein anderes, nicht minder irritierendes Ergebnis der Asynchronität wäre, daß zwar der Verweis auf ein Dokument noch funktioniert, dessen Inhalt sich jedoch geändert hat, seitdem das Dokument indexiert wurde - auf der Zielseite gibt es unter Umständen keine Möglichkeit mehr, an den gewünschten Inhalt zu gelangen.
Dieser technischen Herausforderung begegnen die Betreiber derzeit mit kürzeren Crawling-Intervallen. Angesichts dynamischer Webpages ist es jedoch abzusehen, daß solche Bestrebungen das Problem nur abschwächen, jedoch nicht lösen können. Jeder zentrale Ansatz ist hier m. E. langfristig zum Scheitern verurteilt. Mangelnder Index-Dynamik kann unter Umständen durch Dezentralisierung begegnet werden (vgl. den Vorschlag von Kirsch 1998; 5).
Weiterhin tritt bei einer stetigen Vergrößerung des Web und geringer Frustrationstoleranz der Nutzer auch das Problem stärker zu Tage, daß die rein quantitativ-statistische Sortierung der Ergebnislisten auf Wortebene keine Sicherheit bietet, eine ausreichende Anzahl inhaltlich relevanter Verweise auf den ersten zwei Ergebnisseiten präsentieren zu können. Hier können neueWege in der Relevanzsortierung abhilfe schaffen. Innovative Dienste verwenden dazu zusätzliche, Dokumenten-externe Informationen. Drei Beispiele zeigen Alternativen auf: Google[9], DirectHit[10] und Goto[11].
Google nutzt die Linkstruktur des WWW in seinem sog. „PageRank“-Ver- fahren und betrachtet den Verweis auf ein Dokument als Votum dafür. Das funktioniert auch rekursiv: Eine Webpage, auf die Seiten mit hohen Vota verweisen, bekommt bei Google Gewicht. Etablierte und vielfältig eingebundene Angebote steigen also auf die vorderen Plätze der Ergebnisliste. Zusammen mit dem Kontext der Zielseite ist es so möglich, über reineWorthäufigkeiten und - abstände als Sortierungskriterium hinauszugehen.
Direct Hit verwendet die Ergebnislisten selbst als Instrument, um die Popularität von Angeboten zu messen. Im Sinne einer selbsterfüllenden Vorhersage gelten dort angeklickte Links auf Angebote in der Ergebnisliste als Votum für dieses Angebot; es wandert in den Ergebnislisten auf einen vorderen Platz.
Goto versteigert die wertvollen ersten Plätze der Ergebnislisten für bestimmte Suchworte meistbietend. Diese Strategie erscheint im Vergleich nur auf den ersten Blick moralisch zweifelhaft: Professionelle Dienstleister manipulieren schon seit langer Zeit im Auftrag von eCommerce-Firmen deren Ranking in Suchmaschinen - vergleicht man mehrere Suchmaschinen bei bestimmten Suchbegriffen, so zeigt sich eine Konvergenz in den Ergebnissen (vgl. Jacobson 2000, „Ironically...“). Bei Goto wird die Käuflichkeit guter Rankings nur offen zur Geschäftsidee gemacht.
In diesen drei Beispielen wird deutlich, daß unterschiedliche Mechanismen eingesetzt werden, um den Begriff der „Relevanz“ im Relevanzranking inhaltlich neu zu definieren, abseits vom rein Statistisch-Mathematischen.
Schließlich sehen sich die Suchdienste heute einer veränderten Situation gegenüber, was ihre Nutzer angeht: verglichen mit den Anfangstagen der breiten WebNutzung haben sich die demographischen Merkmale geändert. Die Dienste müssen einer heterogeneren Gruppe von Menschen gerecht werden als in den akademisch geprägten Anfangstagen. Weder überdurchschnittliches Abstraktionsvermögen noch hohe sprachliche Kompetenz oder Motivation können vorausgesetzt werden. Daher müssen Suchdienste Alternativen und Hilfestellungen bei der Eingabe und Verfeinerung von Suchanfragen zur Verfügung stellen.
Ein Hauptproblem sind Suchanfragen, die zu wenig Trennschärfe besitzen, um aus dem vieldeutigen Index sinnvolle Ergebnisse filtern zu können. Ein Großteil der Suchen besteht aus ca. zwei Wor- ten.[12] Die unzureichenden Nutzereingaben müssen also in einen Kontext gestellt werden.
Linguistische Begriffs- Ontologien helfen dabei, Doppeldeutigkeiten zu beseitigen, indem automatisch alternative Bedeutungen zur Auswahl gestellt werden: Zielt beispielsweise die Ein-Wort- Suchanfrage „Java“ auf den Kaffee, die Insel oder die Programmiersprache gleichen Namens?[13]. Ähnlichkeiten zwischen anzugebenden Textpassagen und Mustern in der Datenbank der Suchmaschine ziehen diese zum Vergleich heran[14]. Sogar die Abkehr vom üblichen Suchmaschinen-Eingabeinterface, ein Agenten-artiger, automatischer Beratungsdienst[15] oder ein Instant-Lexikon[16] sind schon in konkreten Produkten verfügbar.
2 Web-Nutzung als dynamischer Selektions- und Entscheidungsprozeß
2.1 Navigation per Hyperlink und Meta-Medienanwendung
Navigation per Hyperlink im Web ist die aktive, diskontinuierliche Aktualisierung asymmetrischer Relationen durch Nutzer in einem heterarchischen Informationsraum:
Nutzer navigieren aktiv über die Grenzen von Webpages und Websites hinweg. Daher ändert sich der Bezugsrahmen je nach Zielseite. Der Kontext von Hyperlinks, ihr Text selbst, beschreibende Zusammenfassungen, Überschriften oder grafische Elemente bilden die Grundlage für spekulative Selektionsentscheidungen. Das verweisende Element und das Ziel, auf welches verwiesen wird, sind sehr unterschiedlich - damit gibt es Raum für (Fehl-)Interpretationen.
Nutzer springen also in Dokumente, deren Beschaffenheit sie kaum vorhersehen können. Der Weg zurück in bekannte Dokumente steht jedoch immer offen, zum Beispiel per „Zurück“- oder „Start- seite“-Knopf, Lesezeichen-Liste oder Direkteingabe eines URLs. Desorientierung im Web ist ein fundamentales Problem, denn verschiedene Arten von Hierarchien überlagern sich dort in komplexer Weise, so daß die Verortung des Handelns auf Webpage- oder Website-Ebene schwer fällt.
Meta-Medienanwendungen zu nutzen heißt, zielgerichtet eine Untermenge an Anschlußoptionen erzeugen zu las- sen.[17] Nutzer treten mit der Intention an Suchdienste heran, ein Informationsdefizit auszugleichen. Ihre Aufgabe ist es zunächst, dieses derart zu formulieren, daß Suchdienste daraus problem-angemessene Anschlüsse generieren können. Daraufhin wählen die Nutzer Verweise auf Zielseiten, die sie im folgenden Schritt auswerten können. Das Desorientierungs-Problem tritt an dieser Stelle deutlich zu Tage: Suchdienste verweisen auf einzelne Webpages. Der Kontext der Ziel-Website geht verloren, wenn ihre Informations-Architekten dort keine Hinweise auf die Struktur der Website plaziert haben (vgl. Nielsen 1999; i88ff. und Rosenfeld, Morville 1998; 47IL).
Vor dem Hintergrund dieser allgemeinen Definitionen ergeben sich für die Nutzer verschiedene Herangehensweisen, im Web Informationen ausfindig zu machen.
2.2 Hunting, Grazing,
Browsing: Drei Typen der Web-Suche
Hawkins schlug in seinem Artikel „Hunting, Grazing and Browsing: A model for online information retrieval“ (Hawkins 1996) vor, Web-Informationssuche in drei verschiedene Typen zu gliedern.
Unter „Hunting“ versteht dieser Autor eine gezielte Suche in einem Datensatz mit einer traditionellen, stichwortbasierten Text-Suchmaschine. Der Nutzer verfolge ein Ziel, gebe Stichworte ins System ein, werte die möglichen Antworten aus und modifiziere seine Angaben je nach Feedback (ebd., „The Model“, „Hunting“). Nutzer können zum „Hunting“ neben traditionellen Bibliothekskatalogen und kostenpflichtigen proprietären Datenbanken auchWebSuchmaschinen, ihre Meta-Varianten sowie Kataloge mit Suchmaschinen-Inter- face einsetzen.
„Grazing“ bezeichnet nach Hawkins die Konsumtion vorgefertigter, personalisiert versandter Informationen. Nachdem der Nutzer die Präferenzen für diesen Service einmal festgelegt habe, kämen diese bis auf Widerruf automatisch zu ihm (ebd., „The Model“, „Grazing“). Solche „Push“-Dienste werden heute vor allem in Form von EmailNewsletters und personalisierten WebDiensten angeboten, die auf spezielle Geschehnisse hin oder in einem voreingestellten Rhythmus Inhalte bereitstellen.
„Browsing“ dagegen sieht Hawkins als visuell-automatisiertes Herumstöbern ohne Ziel, wobei die Ablenkung zur Methode wird. Er nennt Browsing „information impulse buying“ (ebd., „The Model“, „Browsing“), also unreflektierten Zugriff auf Informationen.
Was in Hawkins Rahmendefinitionen nicht vorkommt, ist die zielgerichtete Nutzung hypertextuell organisierter Dokumente ohne Verwendung einer Suchmaschine. Dem Nutzer erlaubt es der Link-Text, ggf. eine explizite Beschreibung des Link-Zieles und der implizite Kontext des Link-Umfeldes, über das Ziel-Dokument zu spekulieren. Insofern ist ein Link nicht so informationsarm, daß er nicht auch den intentionalen Zugriff auf den verbundenen Inhalt erlaubte. Explizit gemachte Informationshierarchien verhelfen dem Online-Nut- zer dazu, Navigation innerhalb der Website-Struktur zu verorten. Ich verwende den Begriff „Browsing“ daher abweichend von Hawkins Definition so, daß er potentiell auch intentionales Verfolgen von Hyperlinks umfaßt. Das entspricht eher der Definition von Ellis, der Browsing als „semi-directed or semi- structured searching“ versteht. (Ellis 1989; 187)
„Hunting“ und - potentiell intentionales - „Browsing“ sind anschlußfähig. Eine Such-orientierte Nutzungs-Episode kann zum Beispiel in Browsing münden. Auf diese Übergänge und Verbindungen gehe ich in Kapitel 2.5 ein.
2.3 Selektion im Web als Entscheidungssequenz
Wirth und Schweiger beschreiben in ihrem Überblicksartikel „Selektion neu betrachtet: Auswahlentscheidungen im Internet“ (Wirth, Schweiger 1999) im Rückgriff auf Basis-Definitionen von Jungermann u.a. (Jungermann, Pfister, Fischer 1998, 25-36) Selektion im Internet als eine bestimmte Form der Entscheidung.
Die Rezeptionssituation sei gekennzeichnet durch geringe Transparenz, hohe Unsicherheit, hohe Kontrolle, geringen Verhaltensauswand und hohe Reversibilität. Lange Entscheidungswege bei hoher Optionsdichte führten zu großem Selektionsdruck (Wirth, Schweiger 1999; 62).
Intransparenz und Unsicherheit haben m. E. zur Folge, daß Entscheidungen für oder gegen die Aktualisierung bestimmter Optionen nur selten stereotyp oder routiniert ablaufen können. Vielmehr ist der Nutzer gefordert, sich Entscheidungen bewußt zu machen, große Aufmerksamkeit auf das Ziel zu richten und hohe Flexibilität an den Tag zu legen. Diese Eigenschaften von Selektions- bzw. Entscheidungsstrategien korrespondieren mit der Darstellung reflektierter Entscheidungsprozesse bei Jungermann (Jungermann, Pfister, Fischer 1998; 32f.).
Ich teile Wirth und Schweigers Einschätzung nicht, daß Selektion imWeb zumeist stereotype Entscheidungen mit sich bringe, da Websites bis hin zu den Link-Betitelungen stark konventionalisi- ert seien (Wirth, Schweiger 1999; 66). Stereotype Entscheidungen setzten voraus, daß die Nutzer einfach bestehende kognitive Skripte aktivieren könnten, deren Vorstrukturiertheit häufig zu den aktuell verwendeten Web-Konventionen paßte. Auf diese Weise sei auf Seiten der Nutzer nur geringe Aufmerksamkeit nötig (vgl. Jungermann, Pfister, Fischer 1998; 36). Meiner Meinung nach müßte diese Aussage zumindest nach dem Erfahrungsgrad der Nutzer differenziert werden; Neulinge können diese Konventionen gar nicht gut kennen, so daß eine Stereotypisierung fraglich ist. Bei querschnittartiger Nutzung vieler Websites gibt es nur wenige, sehr basale Konventionen wie zum Beispiel die Auszeichnung eines Links durch Unterstreichung, Plazierung der Navigationsleisten auf der linken Seite oder Startseiten-Links über ein Logo in der linken oberen Ecke des Bildschirmes. In unterschiedlichen Website-Genres, durch schnell fluktuierende Design-Trends und Zuschnitt auf unterschiedliche Zielgruppen variieren Informationsdesign und Gestaltung stark. In einem anderen Artikel stimmen Wirth und Brecht dieser Beobachtung zu: „Auch kann angenommen werden, daß Nutzer mit hoher WWW-Erfahrung eher über routinisierte oder stereotype Entscheidungsmuster verfügen (und diese einsetzen) als WWW-Novizen.“ (Wirth, Brecht 1998; 158) Reflektierte Entscheidungen nach Jungermanns Definition setzen voraus, daß Optionen vorgegeben sind, zwischen denen entschieden werden soll.
Bei der Selektion auf langen Entscheidungswegen imWeb werden jedoch auch Situationen auftreten, in denen nur indirekte Optionen bestehen, die dem Nutzer verborgen bleiben. Man denke dabei an die Beschreibung der heterogenen Linkstruktur des Web aus Kapitel (siehe Kapitel 1.1.2) und die inhaltlichen Komplexitätsebenen von Webdokumenten (siehe Kapitel 1.1.3). Auch das eigentliche Ziel der Webnutzung kennen Web-Nutzer nicht immer derart präzise, daß es als sicheres, leitendes Kriterium dienen könnte. Insofern ist zielgerichtete Navigation imWeb rein auf der Basis reflektierter Entscheidungen unwahrscheinlich.
Offenere, schwächer vorstrukturierte Aufgaben in einer unterschiedlich stark strukturierten Umgebung wie dem Web erfordern bei ihrer Bewältigung also ein vielschichtigeres Vorgehen. Jungermann definiert einen weiteren allgemeinen Entscheidungstyp: den konstruktiven. Darunter versteht er Entscheidungen, bei der Personen zunächst unter unklaren Zielvorstellungen und Optionen agieren. Diese zu konstruieren erfordere sehr hohe Aufmerksamkeit und Flexibilität sowie viel Zeit. Während des Entscheidungsprozesses ergäben sich vorläufige
Wahlen, die als Zwischenstation dienten. Neue Konsequenzen würden generiert, die letztlich zu einem unvorhergesehenen Ergebnis führen könnten (Jungermann, Pfister, Fischer 1998; 33IÏ.). Damit gibt es im konstruktiven Entscheidungsprozeß eine Schleife, die seine Leistungsfähigkeit erhöhen kann - vorausgesetzt der Nutzer bringt die genannten Voraussetzungen mit. Mit Leistungsfähigkeit meine ich, daß potentiell zwei Faktoren kompensiert werden: die geringe direkte Anschlußfähigkeit von Optionen aufgrund der Komplexität der medialen Voraussetzungen (s.o.) und eine zunächst schwächere Vorstrukturierung der Zielvorstellung. Der Analyse-Blickwinkel erweitert sich zu einer prozeßhaften Sicht: von der Bewertung einer unmittelbaren Situation - wie bei routinisierten und stereotypen Entscheidungen - zur Generierung neuer Informationen, die wiederum zur Basis erneuter Anschluß-Wahlen werden.
Betrachtet man Studien der Web-Navigation, so zeigen sich Parallelen. Vorläufige Entscheidungen, die kurz danach wieder verworfen werden, korrespondieren mit Nabe-Speiche-Mustern, die bei Nutzern festgestellt wurden (vgl. die Studie zu wiederkehrenden Navigationsmustern von Tauscher, Greenberg 1997). Sie selektierten eine Option (und daraufhin eine eingeschränkte Zahl von Anschlußoptionen), werteten den Wert der resultierenden Zielseite für die Aufgabe aus und benutzen den Zurück-Knopf oder die Verlaufsliste dafür, zu einem bekannten Punkt zurückzugelangen. Von einer zentralen Seite (in einem kreisförmig organisierten Bild die „Nabe“) gingen einzelne Pfade ab, die nacheinander verfolgten Optionen oder Optionsketten entsprechen (die radialen „Speichen“).
Die Nutzung von Meta-Medienanwendungen - beispielsweise einer stichwortbasierten Suchmaschine - setzt die Formulierung von Suchworten oder Suchphrasen voraus. Auf deren Eingabe hin stellt das System eine Reihe von Optionen bereit; es strukturiert also die Möglichkeiten für Anschluß-Entscheidungen in direkt aktualisierbar und unsichtbar. Der konstruktive Aspekt aus dem obigen Entscheidungstyp wird auf die Suchphrase reduziert: Die eigentliche Generierung von Optionen daraus nimmt die Suchmaschine als „black box“ vor. Ihre inneren Selektions-Mechanismen bestimmen also direkt, welche Anschluß-Selektionen Nutzer vornehmen können. Es wäre folglich nicht abwegig, von einer Ko-Selektion zwischen Mensch und Suchmaschine zu sprechen. Dabei ist der Nutzer aber nicht so machtlos, wie es zunächst erscheinen mag:
Erstens bestimmt zwar eine Suchmaschine durch ihre Datenbasis und das Relevanzranking, welche Zielseiten inde- xiert und besonders sichtbar gemacht werden, jedoch sind auch die geführten Seiten ihrerseitsTeil des Netzes, verweisen also nach ihrer eigenen Logik auf weitere Zielseiten. An dieser Stelle verliert die Suchmaschinen-Vorstrukturie- rung an Einfluß auf die Nutzung von Anschlußoptionen.
Zweitens kann der Suchende seine Wahl als vorläufig erkennen, zur Suchmaschine zurückkehren und eine andere Zielseite wählen, die ihm andere Optionen eröffnet.
Drittens kann der Suchende die Untermenge an Anschlußoptionen auf der Ergebnisliste als ungenügend beurteilen und mit einer modifizierten Anfrage erneut starten. Damit wäre eine neuer Startpunkt der Ko-Selektion gegeben, die neue Anschlüsse eröffnet.
Viertens kann der Suchende die Ergebnislisten der Suchmaschine insgesamt als ungenügend beurteilen und eine andere Meta-Medienanwendung hinzuziehen.
2.4 Rahmenmodell der Such- maschinen-Interaktion von Shneiderman
In ihrem Artikel „Clarifying Search. A User-Interface Framework for Text Searches“ (Shneiderman, Byrd, Croft 1997) stellen die Autoren ein vierstufiges Rahmenmodell der Suchmaschinen-Nut- zung vor. Sie führten es zur Strukturierung der Diskussion über User InterfaceEigenschaften ein. Daher hat es nicht den Anspruch, einen kompletten Informations-Suchprozeß abzubilden, sondern nur den Teil, der eine Interaktion mit der Suchmaschine selbst beinhaltet. Die Sequenz der Phasen entspricht jedoch der linearen Abfolge von Aktionen im Suchprozeß. Zu beachten ist auch, daß die Autoren über Textsuchen sprechen, nicht ausschließlich über Web-Suchmaschinen. Im folgenden beschreibe ich nur das Web-Relevante. Im Vorgriff auf spätere Kapitel nenne ich Altavista.de hier häufiger, weil der Suchdienst in dieser Studie zur Untersuchung eingesetzt wurde (siehe Kapitel 4.2.2).
Phase eins ist die Formulierung der Suchanfrage (Shneiderman, Byrd, Croft 1997; „The four-phase framework for search“, „1. Formulation“). Sie umfasse verschiedene Einzelentscheidungen, die jede für sich komplex seien. Bei Suchmaschinen, die ihre Ergebnisse aus verschiedenen Quellen beziehen (zum Beispiel Meta-Suchmaschinen), müßten die
Nutzer zunächst entscheiden, welche davon sie durchsuchen wollten (ebd., „ia. Sources“). Implizit gilt das auch für internationale Suchmaschinen mit nationalen Ablegern, wie auch Altavista.de: Schon im Standard-Interface ist es möglich, zwischen dem deutschsprachigen und gesamten Web als Ziel zu wählen. Das entspricht einer Quellenauswahl, da die Indizes getrennt sind.
Die Eingrenzung von Feldern erlaube es, bestimmte Aspekte der gesuchten Dokumente einzugrenzen (ebd., „ib. Fields“). In der Standard-Suche von Altavista entspricht das der Auswahl, in welcher Sprache der gewünschte Text verfaßt sein soll. Gleichzeitig stehen dort den Nutzern Felder zur Verfügung, die in die Suchphrase integriert werden: Sie erlauben es zum Beispiel, Suchen auf eine bestimmte Website zu beschränken oder nur Worte im Titel der Zielseiten zu be- achten.[18]
Das Wichtigste an der Formulierungsphase ist es für den Nutzer jedoch, zu spezifizieren, wonach gesucht werden soll. Shneiderman und Kollegen nennen drei Möglichkeiten: unstrukturierten Text, Text mit eingebetteten Suchoperatoren und Text mit separat spezifizierten Suchoperatoren (ebd. „ic. What to search for“). Die meisten aktuellenWeb- Suchmaschinen - unter anderem auch Altavista - erlauben die erste und zweite Alternative, Hotbot z .B. auch getrennte Operatoren.[19]
Die Autoren stellen in diesem Zusammenhang eine zentrale Frage: „Does the program interpret the query the way the user intended it, and - even if it does - does the user know that the program interprets it that way?“ (Shneiderman, Byrd, Croft 1997; „ic. What to search for“ ). Erwartungskonformität ist deshalb ein wichtiges Ziel, weil in der vielfältig strukturierten Web-Umgebung die Gefahr besteht, daß unterschiedliche Standards für die Formulierung von Suchanfragen zu Überforderung und Fehlern bei den Nutzern führen. Auch mangelndes Wissen der Suchmaschinen-Nutzer über die Retrieval-Sprache kann zu unvorhergesehenen Ergebnissen führen: Das betrifft zum Beispiel das Mißverständnis, Suchmaschinen verstünden vollständige Sätze sinngemäß. Da dem nicht so ist, können Ergebnisse dieser unstrukturierten Textsuchen verwirrend sein.
Phase zwei nennen die Autoren Aktion (Shneiderman, Byrd, Croft 1997; „The four-phase framework for search“, „2. Action“), also den Start der Suche durch das Betätigen des Suche-Knopfes. Hinzugefügt sei hier, daß es in vielen WebSuchmaschinen heute möglich ist, einfach die Eingabetaste zu drücken, um die Suche zu starten - das gilt auch für Al- tavista.de. Das Browser-Interface ermöglicht es, eine laufende Suche abzubrechen, und zwar mit dem universellen „Abbrechen“-Knopf.
In Phase drei beurteilt der Nutzer die Ergebnisse. (Shneiderman, Byrd, Croft 1997; „The four-phase framework for search“, „3. Review of Results“)
Die Autoren sprechen hier über Möglichkeiten, Nutzer die Ergebnislisten nach eigenen Kriterien sortieren und auswerten zu lassen. Darunter fallen zum Beispiel die Anzahl von Items in einer Teil-Ergebnisliste, die Anordnung nach bestimmten Feldern der Zielseiten, chronologische, alphabetische oder Relevanz-Sortierung.
Im Juli 2000 bietet der Mainstream an Web-Suchmaschinen nur wenige Auswahlmöglichkeiten an. In den erweiterten Suchen ist es zumTeil möglich, die Anzahl von Items in Teil-Ergebnislisten zu bestimmen.
Darüber hinaus erlauben nur einzelne die Steuerung der Gewichtungen im Rel- evanzranking[20] oder ordnen Ergebnisse automatisch in vorgefertigte Kategorien ein.[21] Altavista.de erlaubt keine Modifikation der Ergebnislisten-Sortierung nach den Präferenzen der Nutzer.
Phase vier dreht sich um die Verfeinerung und Modifikation der Suchphrasen und Suchergebnisse (Shneiderman, Byrd, Croft 1997; „The four-phase framework for search“, „4. Refinement“). Ein Mittel der Wahl dazu ist Relevanz-Feedback. Das sind Links, die der Nutzer verfolgt, wenn ihm das nebenstehende Ergebnis zusagt.[22]
Weiterhin schlagen Shneiderman und Kollegen die Funktion vor, Anfragen abspeichern zu können, um es den Nutzern zu erleichtern, später darauf zurückzugreifen und iterativ Verbesserungen vorzunehmen (Shneiderman, Byrd, Croft 1997; a.a.O.).
Diese Anregung haben nur wenige Suchdienste im Web aufgenommen, obwohl Studien darauf hindeuten, daß die einzelnen Nutzer häufig Ähnliches suchen (vgl. dazu den Artikel „Modeling Users’ Successive Searches in Digital Environments.“ von Spink, Wilson, Ellis u.a. 1998; dort „7. Conclusion“). Altavis- ta.de bietet direkt keine Suchepisodenübergreifende Speicherung der Suchanfragen oder Ergebnisse an. Allerdings steht die aktuelle Suchphrase immer direkt über der Teil-Ergebnisliste, so daß es möglich ist, dort zusätzliche Begriffe zu ergänzen, bestehende zu entfernen oder die Suchoptionen zu verändern, um die Anschlußoptionen im Sinne der Suchintention zu formen.
2.5 Vorschlag eines dynamischen Modells der Web-Informationssuche mit Suchmaschinen
Mir erscheint dieses praxisnahe Modell geeignet, die grundlegenden Interaktionen mit einer stichwortbasierten WebSuchmaschine abzubilden. Es beschreibt für die „Jagd“ nach Informationen im Web (siehe Kapitel 2.2) sowohl, welche Komponenten der Suchmaschine beteiligt sind, als auch welche Interaktionsphasen die Nutzer durchlaufen. Da das Modell nie dazu gedacht war, einen gesamten Informationssucheprozeß abzubilden, möchte ich es vor dem Hintergrund anderer Modelle dahingehend erweitern.
Weber und Groner haben als Ergebnis ihrer Studie „Suchstrategien im WWW bei Experten und Laien“ das Suchen im Web als TOTE-Einheit (Test, Operate, Test, Exit) nach Miller, Galanter und Probram 1960 beschrieben (zitiert nach Weber, Groner 1999; 189). Das ist eine schleifenförmige Darstellung des Suchvorganges als Problemlösungsstrategie - die Schleife wird erst verlassen (Exit), wenn nach einer Sequenz abwechselnder Handlungen (Operate) und Tests (Test) ein erwünschter Zustand erreicht ist.
Vor diesem Hintergrund schlage ich vor, die beschriebene Verfeinerungsphase als Reformulierungsphase in einem TOTE-artigen Gesamt-Prozeß zu begreifen, wobei der Suchmaschinennutzer adaptiv im Sinne Wirth und Brechts vorgeht:
Sie entwickelten das „Clickstream“- Modell, welches Selektionshandlungen im Web beschreibt. Vor dem Hintergrund eines Selektionszieles fände eine Transaktion zwischen Selektionsorientierung in einem wahrgenommenen Merkmalsraum und Navigationshandlung in einem wahrgenommenen Aktionsraum statt, deren Ergebnis per Zielevaluation beurteilt würde. Die Zielevaluation wirke gleichermaßen auf Selektionsziel, Selektionsorientierung und Navigationshandlung zurück. (vgl. Abb. i in Wirth, Brecht 1998; 158) Damit konstruieren die Autoren einen adaptiven Nutzer, dessen Selektionen und Evaluationen die wahrgenommenen Merkmale und Navigationsoptionen beeinflußt.
Im Shneidermanschen Modell kommt kein Browsen durch und kein Auswerten von Zielseiten vor. Für den Suchprozeß sind diese aber zentral, schließlich tragen sie die indexierten bzw. referenzierten Informationen. Ich führe daher eine Browsing-Phase ein, die auf die Beurteilung der ErgebnislistenItems folgt; sie kann auch mehrere Schritte umfassen.
Verschiedene Anschlüsse ermöglichen es nun, diese Phasen in unterschiedlichen Sequenzen zu durchlaufen, so daß sich charakteristische Muster herausbilden. Abb. 2-1 verbildlicht das. „Ende“ entspricht grundsätzlich dem TOTE- „Exit“ und hat zwei Bedeutungen: Entweder schließt der Nutzer den Suchprozeß erfolgreich ab oder gibt ihn auf. Ein erfolgreich abgeschlossener Suchprozeß hätte in dem Experiment, das ab Kapitel 4 detailliert beschrieben wird, zur Folge, daß die Vpn[23] ein passendes Lesezeichen ablegt.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-1 : Dynamisches Modell der WebInformationssuche mit Suchmaschinen
2.6 Erforderliche Eigenschaften der Nutzer in den Interaktionsphasen
Das beschriebene, dynamische Modell der Informationssuche im Web mit Hilfe einer Suchmaschine stellt einen prinzipiellen Ablauf von Interaktions-Möglichkeiten dar. Die Nutzer greifen darauf vor dem Hintergrund ihrer persönlichen Kompetenzen und Defizite zu. Sie wenden der Problemlösung ihre Aufmerksamkeit zu und setzen vor allem kognitive Ressourcen, aber auch Zeit und Geld ein. Als Nutzen erwarten sie umfassende und präzise Ergebnisse, die ihnen weitere Anschlußhandlungen ermöglichen.
Über die Fortführung dieser Abwägung oder den Abbruch entscheiden der bewußt oder unbewußt eingeschätzte Wert der Auflösung des Informationsdefizits, die Qualität der vorgefundenen (Teil-)Ergebnisse sowie die Motivation: niedrige Motivation bei der Suche im Web kann zur Folge haben, daß Suchvorgänge vorschnell abgebrochen werden oder sich zu ungerichteten Browsing-Episoden entwickeln.
Sind andere mediale Angebote imstande, die gewünschte Information mit geringeren Kosten bereitzustellen, so ist es wahrscheinlicher, daß diese genutzt werden. Marchionini meint dazu in seinem Aufsatz „Information seeking Strategies of Novices Using a Full-Text Electronic Encyclopedia“ plakativ: „Just as water and electricity seek paths of least resistance, so humans seek the path of least cognitive load“ (Marchionini 1989; 56).
Setzt man ausreichende Motivation und hohe Aufmerksamkeit voraus, so erwarte ich von den folgenden KonzeptKategorien, daß sie über Erfolg oder Mißerfolg bei zielgerichtetem Web-Suchen entscheiden.
Eine Vorstellung davon, welche Angebote das Web generell bereithält, bildet die Grundlage dafür, bestimmte Lösungen zu erwarten; ein Erfahrungsschatz medialer Web-Darstellungsformen hilft den Nutzern dabei, sich schnell in ZielWebsites zurechtzufinden. Diese beiden Aspekte bezeichne ich im folgenden als „Web-Erfahrung“.
Ein Konzept der Datenbasis von Suchmaschinen erlaubt Nutzern, Anschlußoptionen richtig einzuschätzen. Zum Beispiel kann das Wissen über die geringe relative Netzabdeckung eines bestimmten Suchdienstes dazu führen, daß bei wenigen oder ungeeigneten Ergebnissen zu einem Spezialthema auch anderen Meta-Medienanwendungen beachtet werden. Das Wissen darüber, das Suchmaschinen bei seltenen, speziellen
Begriffen mit hoher thematischer Trennschärfe verläßlichere Ergebnisse liefern können, erlaubt effizienteres Suchen: In einem stichwortbasierten Index steigt die Trennschärfe eines Suchwortes mit seiner Seltenheit.
Wissen über die Bedienung der Suchmaschine hilft dabei, Suchanfragen trennscharf zu formulieren, indem Nutzer beispielsweise Phrasen eingeben oder Suchbegriffe explizit ausschließen können. Diese Aspekte fasse ich unter der Bezeichnung „Suchmaschinenwissen“ zusammen. (vgl. Marchionini 1995; 61)
Thematisches Fachwissen erlaubt es den Suchenden, eine detaillierte Vorstellung des Suchzieles zu entwickeln und Ergebnisse effizient auszuwerten. Da fachliche Details trennscharfe Suchworte ergeben, haben Insider einen klaren Vorteil bei der Suche. (ebd.)
Sprachkompetenz äußert sich darin, daß Rechtschreibungsfehler in den Suchworten vermieden und Synonyme flexibel eingesetzt werden. Damit wird der ungewünschten Selektivität von Suchworten entgegengewirkt, die die Anzahl möglicher Treffer einschränkt. (vgl. Kapitel 2.7)
In jeder der vier vorgeschlagenen Phasen des dynamischen Modelles kommen dabei unterschiedliche Faktoren zum Tragen.
In der Formulierungsphase ist eine vielschichtige Transferleistung gefragt, bei der der Nutzer Fachwissen und Suchmaschinenwissen integriert und auf Basis seiner Sprachkompetenz umsetzt. Um potentielle Angebote vorhersehen zu können, ist Web-Erfahrung nützlich.
Bei der Beurteilung der Ergebnisliste hilft ebenfalls das Suchmaschinenwissen weiter, um das Ranking der Liste zu interpretieren. Fachwissen kann nützlich sein, um aus den angebotenen Zusammenfassungen schnell Hinweise auf die Zielseiten zu gewinnen. Web-Erfahrung unterstützt die Dekodierung der angegebenen URLs, die ebenfalls Spekulationen über die Zielseiten erlauben.
Während derVerfeinerungsphase spielen vor allem Suchmaschinenwissen, Fachwissen und Sprachkompetenz zusammen: Gefragt ist eine syntaktisch korrekte Modifikation der bestehenden Suchphrase, die deren Selektivität im Sinne des Recherchezieles steuert.
In der Browsing-Phase profitiert der Nutzer vor allem von seiner Web-Erfahrung. Ist er dahingehend routiniert, kann er mehr Aufmerksamkeit auf Hinweise richten, die das Rechercheziel betreffen. Kennt er Web-Genres und Konventionen, so ist die Navigation erleichtert, eine flüssigere Interaktion mit den Websites wahrscheinlich.
2.7 Sprache als
Interaktionsproblem
Für den Nutzer ist besonders die Formulierungsphase in der Interaktion mit einer textbasierten Web-Suchmaschine kritisch. Sie hat großen Einfluß auf die Generierung von Anschlußoptionen, daher wirken sich Fehler hier besonders schwerwiegend aus. Ich möchte aus diesem Grund noch etwas genauer ausführen, welche Rolle Sprache in dieser Phase spielt. Dabei stütze ich mich vor allem auf die Artikel von Jansen, Spink, Spiff 2000 (darin besonders: „Linguistic Analysis“, „Lexical Analysis“, „Discussion“) und Feldman 1999 (darin besonders: „Some common problems in information retrieval“).
Alle Suchen beginnen mit einem Informationsdefizit, das als vage Zielvorstellung oder als Verständnis einer explizit formulierten Aufgabe beim Nutzer repräsentiert ist. Im Verlaufe des Suchvorganges bemüht sich der Suchende, das Informationsdefizit durch die Rezeption von Netzquellen auszugleichen. Bei diesen Nutzungsvorgängen verschränken sich zwei Probleme: das Sachpro- blem - Wie ist das Problem beschaffen, das ich lösen will? - und das Interaktionsproblem - Wie löse ich mein Problem unter den Bedingungen des Werkzeuges, das ich verwende? (vgl. Balzert, Hoppe, Opperman u.a. 1988; 7)
Alle gezielten Suchvorgänge bei stichwortbasierten Suchmaschinen im Web beginnen mit einer Suchphrase. Als solches verstehe ich Suchworte, die unter den Regeln einer Suchdienst-spezifischen Syntax zusammengefügt wurden; diese Bezeichnung umfaßt auch EinWort-Suchen und Kombinationen mit Such-Modifikatoren, die der Nutzer im Interface des Suchdienstes auswählt oder als Voreinstellung vorfindet. Durch diese Beschränkung auf Worte und logische Operatoren als Ausdruck einer Such-Intention ergeben sich für jeden Suchenden Einschränkungen, die nicht offensichtlich sind.
Ein Sachproblem soll gelöst werden, indem ein Informationsdefizit in systemadäquater Weise formuliert wird - damit wird ein unzureichend geklärtes Sach- problem gleichzeitig zu einem Interaktionsproblem, wenn die Selektivität der gewählten Worte nicht mit der Repräsentation von Sinn in der Logik der Suchmaschine übereinstimmt.
Nutzer suchen Dokumente, die sie in bezug auf ihr Sachproblem weiterbringen; also Texte, die ihnen durch ihre Aussage helfen. Suchmaschinen indexieren und präsentieren Dokumente aber nicht auf der Bedeutungsebene, sondern primär auf der Ebene statistischer Berechnungen der Worthäufigkeiten. Die Worthäufigkeiten eines Dokumentes beschreiben nicht seinen Sinn - die Logik hinter Suchmaschinen ist jedoch, daß auf der Wortebene ähnliche Texte auch Ähnliches bezeichnen und diese Schätzungen ein hinreichendes Suchergebnis liefern. Kennt der Nutzer diese Bedingungen nicht oder hat er eine falsche Vorstellung von ihnen, so wird die Interaktion mit der Suchmaschine suboptimal ablaufen.
Bei vagen Vorstellungen des Informa- tionsdefizites kommt ein weiteres sprachliches Problem hinzu: Die Beschreibung des Defizits führt nicht automatisch zu seiner Lösung. Da Schlüssel- wort-basierte Suchmaschinen nur Zeichenfolgen auf Ergebnisseiten in ihren Index aufnehmen, ist es für eine erfolgreiche Suche erforderlich, Elemente des Ergebnisses oder seines textuellen Umfeldes schon vorab zu kennen. Vom Nutzer wird also für effektive Suchen erwartet, eine Einschätzung über die Selektivität bestimmter Suchworte und Suchphrasen treffen zu können.
Diese Anforderungen setzen ein großes Maß an Abstraktionsfähigkeit und Erfahrung voraus. Es ist also wahrscheinlich, daß Suchen mit statistischen Suchdiensten nicht auf Anhieb zum Erfolg führen.
Zwischengeschaltete Browsing-Episo- den in Ergebnislisten und potentiellen Zielseiten können dabei helfen, die Ungewißheit über die Selektivität von Suchworten zu reduzieren. Daraus ergibt sich ein rekursiver Prozeß der Verfeinerung von Suchphrasen, der als Lernprozeß voranschreitet.
Sprache ist doppeldeutig, redundant und kontextabhängig. Das läßt sich mit der Logik von Suchmaschinen nicht vereinbaren. Obwohl ein Wort in der Zielseite verneint verwendet wird, wird es eine Suchmaschine als Volltreffer werten, sobald der Nutzer nach dem einfachen Suchwort fahndet. Ob ein Wort zum Beispiel als Markenname oder in seiner Ursprungsbedeutung gemeint ist, ist grundsätzlich für das Suchergebnis nicht entscheidend.
Der Ausschluß unerwünschter Nebenbedeutungen in einer Suche verlangt also vom Suchenden die Kenntnis über die Mehrdeutigkeit, also mangelnde Selektivität der Suchanfrage. Fügt ein Nutzer der Suchphrase ein Ausschlußkriterium hinzu, unterliegt auch dieses dem Problem der sprachlichen Indifferenz.
Nicht vergessen werden darf, daß die vorwiegende Sprache im World Wide Web das Englische ist. Nutzer, die Suchanfragen nicht in ihrer Muttersprache formulieren können, haben also noch ein zusätzliches Problem: Genaue Einschätzungen über die Selektivität von Worten in einem sehr heterogenen Do- kumentenpool zu treffen ist nur mit großer Sprachkompetenz möglich. Weber und Groner nennen in ihrer Studie „Suchstrategien im WWW bei Experten und Laien“ ebenfalls den starken Einfluß von Englischkenntnissen für eine effiziente Websuche (Weber, Groner 1999; 194). Deshalb soll sich die hier vorliegende Untersuchung auf das deutschsprachige World Wide Web und Muttersprachler als Vpn beschränken.
Aber auch Muttersprachler können sich in der Sprachkompetenz unterscheiden: Rechtschreibungsfehler führen zu kleinen oder leeren Ergebnismengen, und Synonymbildungs-Schwächen haben zur Folge, daß Nutzer nicht alle Begriffe verwenden, die thematisch relevant wären.
Schließlich ist zu bedenken, daß das World Wide Web nicht nur aus Text besteht: Standbilder, Videos und Tondokumente machen einen großen Teil seines Reizes aus. Sprache ist jedoch nicht optimal für das Suchen nach solchen Elementen geeignet (vgl. den Artikel „Sear- ching for Multimedia. An Analysis of Audio, Video, and Image Web Queries.“ von Jansen, Goodrum, Spink 2000). Die Schere zwischen dem bezeichnenden Wort und dem bezeichneten Element geht noch weiter auseinander als bei einer rein textuellen Suche.
3 Forschungsleitende Annahmen
Im folgenden möchte ich die Darstellungen aus dem vorigen Kapitel auf bestimmte Aspekte zuspitzen und zu übergreifenden Fragen und Annahmen verdichten. Anschließend wird das Untersuchungsdesign für ein Experiment beschrieben - es eignet sich über die Behandlung der Forschungsfragen hinaus auch zum Explorieren. Die Ergebnisse formuliere ich in Kapitel fünf, Interpretationen folgen in Kapitel sechs.
Als „erfahrene Nutzer“ bezeichne ich solche Vpn, die große Erfahrung in der Recherche mit Suchmaschinen besitzen. Als „unerfahrene Nutzer“ bezeichne ich solche Vpn, die geringe Erfahrung in der Recherche mit Suchmaschinen besitzen. Gleichzeitig nehme ich an, daß hohes Wissen über Web-Suchmaschinen vor allem solche Nutzer besitzen, die auch generell große Weberfahrung mitbringen. Ich stelle erfahrene und unerfahrene Nutzergruppen unter der Annahme gegeneinander, daß das unterschiedliche Vorwissen und die unterschiedlich intensive Vorerfahrung fruchtbar für Kontrasteffekte im Vorgehen der Nutzer sind.
Frage 1
Welche Merkmale zeigen erfahrene und unerfahrene Nutzer in den Formuli- erungs- und Verfeinerungsphasen?
Frage 1, Annahme 1
Erfahrene Nutzer verwenden mehr fortgeschrittene Suchtechniken als unerfahrene.
a) Ich erwarte, daß die erfahrenen Nutzer ihr Suchmaschinenwissen einsetzen, indem sie die höhere Selektivität von Ausschluß-, Phrasen-, und booleschen Operatoren nutzen.
b) Ich erwarte, daß die unerfahrenen Nutzer aufgrund mangelnden Wissens über die spezifischen Suchoperatoren der Suchmaschine Suchworte ohne explizite Verbindungsvorschriften verwenden.
Frage 1, Annahme 2
Erfahrene Nutzer verwenden mehr Suchworte als unerfahrene.
a) Ich erwarte, daß die erfahrenen Nutzer ihr Suchmaschinenwissen nutzen, indem sie die Selektivität der Suchphrase mit Suchwort-Kombinationen steuern.
b) Ich erwarte, daß die unerfahrenen Nutzer aufgrund mangelnden Suchmaschinenwissens kurze Suchphrasen bilden.
Frage 1, Annahme 3
Erfahrene Nutzer wandeln ihre Suchphrasen häufiger ab als unerfahrene.
a) Ich erwarte, daß die erfahrenen Nutzer ihr Suchmaschinenwissen nutzen, indem sie häufiger ihre Suchphrasen abändern und an die Erkenntnisse aus Zwischenschritten anpassen. Sie profitieren dabei auch von größerer WebErfahrung, da sie in einer vorgegebenen Zeitspanne mehr Zwischenergebnisse in Ergebnislisten und Zielseiten auswerten können.
b) Ich erwarte, daß die unerfahrenen Nutzer aufgrund mangelnden Suchmaschinenwissens Suchphrasen weniger häufig abändern. Sie werten aufgrund mangelnder Weberfahrung innerhalb einer vorgegebenen Zeitspanne weniger Zwischenergebnisse in Ergebnislisten und Zielseiten aus.
Frage 2
Sind erfahrene Nutzer auch erfolgreicher in der Bewältigung von Rechercheaufgaben als unerfahrene?
Frage 2, Annahme 1
Erfahrene Nutzer kommen innerhalb einer vorgegebenen Zeitspanne und bei einer fachunspezifischen Aufgabe zu mehr korrekten Ergebnissen als unerfahrene.
a) Ich erwarte, daß die erfahrenen Nutzer durch das Zusammenspiel hohen Suchmaschinenwissens und großer Weberfahrung in allen vier Phasen des vorgestellten Modells effektiv vorgehen und daher mehr korrekte Ergebnisse erzielen.
b) Ich erwarte, daß die unerfahrenen Nutzer durch mangelndes Suchmaschinenwissen und geringe Weberfahrung daran gehindert werden, effektive Suchanfragen zu formulieren, die Ergebnisse schnell zu beurteilen, sie gegebenenfalls zielgenau zu verfeinern und die Zielseiten schnell auszuwerten; daher erzielen sie weniger korrekte Ergebnisse.
Frage 3
Welche Merkmale zeigen die Nutzer in den Suchmustern?
Frage 3, Annahme 1
Die Nutzer nähern sich dem Suchziel rekursiv, in einer Kette von Interaktionen mit Suchmaschine und Zielseiten im Web analog dem vorgestellten Modell. Ich erwarte, daß sich in den Suchmustern aneinander anschließende Interaktionsphasen aufzeigen lassen, die mit den vier Phasen aus dem vorgestellten Modell korrespondieren (siehe Kapitel 2.5). Welche Sequenzen bevorzugt werden, wird der Versuch zeigen. Diese Beobachtungen haben das Potential, Anschlußfragen zu generieren.
4 Untersuchungsdesign
Um den geschilderten Fragen und Annahmen nachzugehen, wählte ich ein Untersuchungsdesign, das verdeckte Beobachtung und Befragung per Fragebogen verbindet. Dabei stand im Zentrum des Interesses, in welchen Sequenzen die Nutzer mit einer realen Suchmaschine und Webdokumenten interagieren, wenn sie online Aufgaben lösen - und mit welchem Erfolg.
Die Suchvorgänge pro Nutzer sollten vollständig und in Echtzeit erfaßt werden: einschließlich der Browsing-Pha- sen, im Sinne des erarbeiteten Modells. Gleichzeitig benötigte ich Angaben der Vpn zu Demographie, Weberfahrung und Suchmaschinenwissen; ebenso ihre
Rechercheergebnisse und Bewertungen derselben. Alle Angaben der Vpn mußten sich problemlos ihren Suchmustern zuordnen lassen. Die Untersuchung konnte daher nicht anonym im Web geschehen - ein Labor-Experiment dagegen erlaubte diesen Detailgrad der Betrachtung.
Für die verdeckte und lückenlose Beobachtung der Nutzer-Interaktionen kamen technisch erzeugte Protokolle zum Einsatz: Ein Proxy, der den Datenstrom zwischen Browser und Web vermittelt, lieferte den geeigneten Ansatzpunkt dazu. Für genauere Definitionen der Terminologie verweise ich auf das Glossar; eine detaillierte Diskussion dieser Beobachtungsmethode findet sich in Kapitel 4-1-1.
Wie in den Forschungsfragen formuliert, erwartete ich einen deutlichen Einfluß des Suchmaschinenwissens und der
Weberfahrung auf den Erfolg bei der Web-Recherche. Daher rekrutierte ich besonders Such-erfahrene und besonders Such-unerfahrene Vpn, um Ergebnisse und Suchmuster kontrastieren zu können.
Im folgenden werden die einzelnen Bestandteile dieses Experimentes genauer beschrieben:
Zunächst folgen zwei Tabellen, die unabhängige und abhängige Variablen zeigen. Daraufhin werden die speziellen Charakteristika von Logdateien als Erhebungswerkzeug und Webexperimenten im allgemeinen thematisiert. Im Anschluß daran stelle ich den Suchdienst vor, der den Vpn zur Verfügung stand und erläutere das Design der Materialien sowie den genauen Ablauf des Versuches.
Abbildung in dieser Leseprobe nicht enthalten
Tab. 4-2: abhängige Variablen im vorgestellten Labor-Experiment
4.1 Logdateien als Erhebungswerkzeug in Web-Experimenten
4.1.1 Verdeckte Beobachtung mit Logdateien
Logdateien sind automatische, stark strukturierte Protokolle technischer Abläufe. In IT-Umgebungen werden sie auf verschiedenen Ebenen eingesetzt: Zum Beispiel können Browser alle Seiten protokollieren, die sie dargestellt haben, Proxies alle Dateien, die durch sie geleitet wurden, Server alle Dateien, die von ihnen abgerufen wurden oder Systemzustände, die sie durchlaufen haben.
Diese Protokolle sind standardisiert und folgen strikten Konventionen. Es können im Laufe der Zeit große Datenmengen anfallen, die gefiltert, zusammengefaßt und visualisiert werden müssen, um Aussagen über bestimmte Transaktionen im Zeitverlauf oder in der Summe treffen zu können.
Eine Anwendung von Logdateien ist es zum Beispiel, die Popularität von gesamten Webangeboten näherungsweise zu messen und die Nutzung einzelner Teile von Websites zu dokumentieren, um eine einfache Form der Erfolgskontrolle bereitzustellen.
Die Beobachtung eines Nutzers mit Hilfe von Logdateien in einer kontrollierten Experimentalumgebung hat verschiedene Vorteile, denn das Protokoll bildet die Nutzungsvorgänge auf einer abstrakten Ebene zusammenhängend und genau ab.
Die Gründe, warum Logdateien im vorliegenden Versuch verwendet wurden, sind
- vollständige Nichtreaktivität durch Unsichtbarkeit für die Versuchsperson,
- komplette Abbildung der Seitenabrufe (bei entsprechender Konfiguration des Browsers),
- exakte Dokumentation der Suchterme (Worte, Suchoperatoren) und eines Teiles der genutzten Interfaces (z. B. einfache Suche, Expertensuche).
Nicht verschwiegen werden sollen allerdings auch die spezifischen Probleme, die mit der Analyse von Logdateien einhergehen:
Die Standard-Protokolle sind zwar präzise und vollständig, jedoch nicht im Sinne der untersuchten Fragestellung spezifizierbar. Da zuviele und redundante Daten erhoben werden, bedürfen sie also einer aufwendigen Filterung, Umformung und Interpretation, um der Beantwortung konkreter Fragestellungen dienlich zu sein. Im Gegensatz zu Methoden, die die Nutzung per BildschirmVideo aufzeichnen, schlagen sich Interaktionen der Nutzer mit der Nutzeroberfläche des Browsers in den Logdateien nicht nieder. Weiterhin können bestimmte Nutzungsvorgänge, die auf der Ebene der Webpage stattfinden (zum Beispiel das Umformulieren von Suchbegriffen ohne das Abschicken der Anfrage) nicht erfaßt werden. Im Rahmen dieser Studie sind die Nachteile jedoch zu vernachlässigen, denn der Schwerpunkt liegt auf größeren Navigation- und Interaktions-Vorgängen: Wege, die die Nutzer in einer bestimmten Reihenfolge nahmen und Suchphrasen, die sie verwendet haben. Diese werden in den Logfiles ausreichend verzeichnet.
Es gibt auf dem Markt eine große Auswahl an Software, die aus Logdateien Maßzahlen ableitet und veranschaulicht. Diese Software ist meist an den Bedürfnissen quantitativer Fragestellungen orientiert. Typische Fragen, die mit Hilfe solcher Software beantwortet werden können, wären zum Beispiel: Wie viele Objekte wurden im letzten Monat vom Webserver X abgerufen? Welche Wege nehmen Besucher einer Website im allgemeinen? Von welchen anderen Webangeboten haben Besucher auf die Website der Firma Y gefunden? Welche Suchworte haben die Besucher eingegeben, bevor sie mit einer Suchmaschine auf die Seiten des Webangebotes gelangten?
Für einen Versuchsaufbau wie in dieser Studie sind diese Software-Pakete jedoch nicht brauchbar, orientieren sie sich doch an den Bedürfnissen von Website-Betreibern, die summierte Nutzungsvorgänge untersuchen möchten, auf einer kleinen Zahl von Websites durch eine große Zahl von Besuchern. Detaillierte Nutzungsvorgänge einzelner Vpn bei einer großen, unkontrollierten Anzahl von Web-Angeboten können damit nicht sinnvoll analysiert werden. Aus diesem Grund mußten in dieser Studie die Logdateien für die intensive Beobachtung einzelner Vpn mit speziell programmierten Filtern umgeformt und in Handarbeit analysiert werden.
Als Programm, das die rohen Logdateien anfertigte, wurde „WebWasher“ ausgewählt, eine für Privatanwender kostenlose Proxy-Software. Sie schaltet sich in den Datenstrom zwischen Web und Browser ein und filtert gewöhnlich Werbebanner, Pop-up-Fenster sowie Skripte aus Webseiten - für diesen Versuch wurden die Haupt-Funktionen jedoch abgeschaltet.[24]
WebWasher liegt in einer stabilen Version vor, hat sich in anderen, ähnlich gelagerten Untersuchungen bewährt und das Format der Logdateien folgt einem offenen, dokumentierten Standard (Combined Log Format, CLF). Zur Filterung und Umwandlung der rohen Logdateien setzte ich ein Programm ein, das nach meinen Vorgaben erstellt wurde.
4.1.2 Störfaktoren in Web-Experimenten
Versuche, die im World Wide Web durchgeführt werden, unterliegen einigen Störfaktoren, selbst wenn die techni- sehen Bedingungen des Zugriffes auf den ersten Bliek konstant erscheinen. Im vorliegenden Fall waren zwar unter anderem die potentielle Bandbreite des Netzzuganges, die Gesehwindigkeit des zugreifenden PCs, Größe und Auflösung des Bildsehirmes, der Browser und die Umgebung der Vpn standardisiert. Ein bedeutender Teil konnte jedoeh nieht so einfach kontrolliert werden: Die Beschaffenheit des Web selbst und die Umstände des Zugriffes darauf beeinflussen prinzipiell die Güte der Daten, die mit einem Web-Experiment gewonnen werden können. Einige der Störgrößen sollen im folgenden kurz vorgestellt werden, um die Datenqualität einschätzen zu können.
Greift ein Nutzer auf ein Dokument im Web zu, so handelt die Netzwerk-Infrastruktur einen zeitweilig gültigen Weg für die Datenübertragung aus. Diese Flexibilität hilft dabei, eventuelle Störungen in Teilen des Netzes zu umgehen, schlägt sich aber in der Zugriffsgeschwindigkeit nieder. Betrachtet man die Zeitdauer von Nutzungsvorgängen in einemWebexper- iment unter einem Zeitlimit für die Vpn, so muß die hohe Variabilität der Zugriffsgeschwindigkeiten bedacht werden: Von einer Sekunde auf die nächste kann der Zugriff sich verlangsamen oder wieder beschleunigen, je nach dem Zustand der Datenübertragungskette. Sprunghaft ansteigende Nutzerzahlen zu bestimmten Tageszeiten in bestimmten Zeitzonen, technische Pannen oder mutwillige Angriffe auf die Infrastruktur können spürbare Fluktuationen hervorrufen oder im Extremfall die Nutzung eines Angebotes komplett verhindern.
Dieser Faktor ist besonders schwerwiegend, wenn eine bestimmte Website im Zentrum des Interesses steht und von den Vpn schwerpunktmäßig genutzt wird, in diesem Falle Altavista.de (siehe folgendes Kapitel). Die Vergleichbarkeit der unterschiedlichen Versuchstage untereinander ist also eingeschränkt.
Dokumente werden nicht nur unter veränderlichen Bedingungen übertragen, ihre Beziehung zueinander ist ebenfalls ständig im Wandel. Die Dynamik äußert sich darin, daß von einem Moment zum nächsten gleicheWege zum gleichen, einem unterschiedlichen Ziel oder in eine Sackgasse führen können. Dokumente werden absichtlich gelöscht oder durch einen Defekt unzugänglich, neue kommen hinzu. Dynamische, Da- tenbank-gestützte Websites schneiden Dokumente auf den Nutzer automatisch zu. Es ist daher nicht auszuschließen, daß die verschiedenen Vpn imVerlaufe des hier beschriebenen Versuches unterschiedliche Rahmenbedingungen für die Nutzung vorgefunden haben.
Eine weitere Störgröße ist die Suchmaschine selbst: Ihre innere Logik wird im Einflußfeld von Nutzeranforderungen, Betrugsabwehr, Dokumenten-Zu- wachs-Management, Werbeeignung und Konkurrenzdruck ständig modifiziert, und zwar uneinsehbar für den außenstehenden Beobachter. Daher kann nicht ausgeschlossen werden, daß den Vpn in verschiedenen Versuchs-Sitzungen qualitativ und quantitativ unterschiedliche Ergebnislisten auf Basis unterschiedlicher Indizes präsentiert wurden.
All diese Einschränkungen liegen in der Natur der Sache begründet: Das Web ähnelt in seiner komplexen Struktur einem biologischen Organismus. Möchte man jedoch reale Nutzer in ihrer Interaktion mit einem realen Suchdienst beobachten, gibt es jedoch m. E. keine Alternative zu einem Web-basierten Experiment, daher nahm ich die geschilderten Nachteile in Kauf.
4.2 Auswahl und Hintergrund des verwendeten Suchdienstes
4.2.1 Eine Suchmaschine, nicht viele
Die Entscheidung, nur einen Suchdienst - Altavista.de - zum Versuch zuzulassen, wurde nach gründlicher Abwägung der Vor- und Nachteile getroffen.
Unbestritten ist, daß die Auswahl eines geeigneten Suchdienstes für eine bestimmte Aufgabe zu den Kompetenzen gehört, die ein Web-Sucher einsetzen kann, um seiner Erfahrung nach die Effizienz des Rechercheprozesses zu steuern. Würde man den Vpn erlauben, eine beliebige Suchmaschine für ihre Recherche auszuwählen, so könnte diese Wahl als Selektionshandlung mit in die Analyse aufgenommen werden. Im Rahmen dieses Versuches wäre solch ein Vorgehen allerdings ungünstig: Während erfahrene Sucher ihr Vorwissen optimal ausspielten, wären die unerfahrenen mit einer zusätzlichen, potentiell überfordernden Einschätzung konfrontiert.
Dazu kommt, daß beim angestrebten Umfang der Untersuchung die Interaktion der einzelnen Sucher mit unterschiedlichen und wechselnden Suchdiensten ins Zentrum der Analyse gerückt wäre, anstelle der Beziehung zwischen genereller Suchmaschinenerfahrung und dem Sucherfolg, sowie dem Wege dorthin. Ich entschied mich daher gegen eine weitere Fragmentierung der Versuchsgruppen und für die Kontrolle des Suchdienstes. Die Variation findet sich innerhalb des Suchdienstes: Altavista integriert verschiedene Interfaces und Zugriffsmöglichkeiten, unter anderem einen Verzeichnisdienst, der vom Katalog Web.de bereitgestellt wird. Den Nutzern stand es frei, aus diesen Möglichkeiten eine Herangehensweise zu wählen.
Auf diese Weise wurden erfahrene Suchmaschinennutzer, die Altavista nicht kannten, zwar potentiell in der Recherche behindert; ich erwartete jedoch, daß sie diesen Nachteil aufgrund ihres Grundlagenwissens kompensieren konnten. Zugute kam ihnen, daß Altavista Konventionen folgt, die sich als de-facto- Standards etabliert haben. Nutzer mit wenig Erfahrung, die Altavista noch nicht kannten, standen vor einem größeren Problem, da ihnen unter Umständen der Hintergrund fehlte, um schnell mit einem unbekannten Suchdienst umgehen zu können. Ihre Suchen würden daher suboptimal ausfallen.
Zusammenfassend erwartete ich als Auswirkung der Beschränkung auf einen Suchdienst eine leichte Polarisierung der Suchergebnisse mit einer Tendenz zugunsten der erfahrenen Sucher.
4.2.2 Gründe für Altavista.de
Die Wahl fiel aus verschiedenen Gründen auf die deutsche Website von Altavista.
Altavista besaß zum Zeitpunkt des Versuches den umfangreichsten Index auf dem deutschen Markt: Nach eigenen Angaben lag die Anzahl der indexierten Dokumente zum Zeitpunkt des Versuches bei 25 Mio.[25], mehr als dreimal soviel wie beim nächsten Konkurrenten Fireball mit 8,2 Mio.[26]
Zwar waren die Nutzerzahlen in Page Impressions etwas geringer als die der IVW (Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V.)-gezählten Konkurrenten Fireball und Infoseek, Altavista kann jedoch ebenso als etabliertes deutsches Angebot gelten.[27]
[...]
[1] Daten aus der zehnten Welle der W3B- Umfrage von Fittkau und Maaß, Erhebungszeitraum: Anfang April bis Mitte Mai 2000, Stichprobe: ca. 30.000 WebNutzer, siehe Fittkau, Maaß 2000; „Demographie I"
[2] über 30.000 deutsche Befragte, Erhebungszeitraum vom April/Mai 2000, vgl. Fittkau, Maaß 2000a
[3] Datenbasis: geloggte Nutzung eines repräsentativen Samples von US-Nut- zern, die mindestens einmal im Monat auf das Web zugegriffen hatten, Media- metrix 2000, siehe die Grafik „Average Minutes Spent Per Usage Day”
[4] für Beispiele automatischer, Kontextsensitiver Empfehlungsdienste siehe „Alexa", Online unter: http://www.alexa.com/support/ (am 24.7.2000), oder „Kenjin", Online unter: http://www.kenjin.com/kenjin/ info.html (am 24.7.2000)
[5] zum Beispiel Yahoo [Online unter http://www.yahoo.de (am 24.7.2000)] oder das Open Directory Project [Online unter: http://www.dmoz.org (am 24.7.2000)].
[6] Die folgenden Ausführungen basieren auf den Ausführungen von Seltzer, Ray, Ray 1997; 84ff. in bezug auf Altavista als stichwortbasierte Suchmaschine.
[7] Altavista Deutschland: mindestens 14- tägig, vgl. dazu die Pressemeldung, Online unter: http://www.vibrio.de/ service/altavist/texte/170400.htm (am 24.7.2000)
[8] z. B. präsentiert Altavista.de [Online unter: http://www.altavista.de (am 24.7.2000) ] Katalog-Ergebnisse von Web.de [Online unter: http:// www.web.de (am 24.7.2000)], Altavista.com [Online unter: http:// www.altavista.com (am 24.7.2000)] und Google [Online unter: http:// www.google.com (am 24.7.2000)] nutzt die Daten des Open Directory Project [Online unter: http://www.dmoz.org (am 24.7.2000)] und Namensdatenbanken - Altavista zeigt Ergebnisse von RealNames [Online unter: http://www.realnames.com (am 24.7.2000)].
[9] Online unter: http://www.google.com (am 24.7.2000)
[10] Online unter: http://www.directhit.com (am 24.7.2000)
[11] Online unter: http://www.goto.com (am 24.7.2000)
[12] für einen Vergleich der Basisdaten verschiedener Studien siehe Jansen, Pooch 2000; „Table 1. Comparison of Web User Studies”
[13] eine Implementation dieser Techniken zeigen Simpli.com [Online unter: http:// www.simpli.com (am 24.7.2000) und Oingo (Online unter: http:// www.oingo.com (am 24.7.2000)]
[14] ein Beispiel dafür liefert Webtop [Online unter: http://www.webtop.com (am 24.7.2000)]
[15] z. B. Autonomy Kenjin [Online unter http://www.kenjin.com/kenj in/info.html (am 24.7.2000)]
[16] z. B. Guru.net [Online unter http:// www.guru.net/ (am 24.7.2000)]
[17] Zum Begriff der Option als Komponente von Entscheidungsproblemen siehe Jungermann, Pfister, Fischerl 998; 17f. „Anschlußoption" verwende ich hier, um der Dynamik in der Generierung von Optionen Rechnung zu tragen: Die Selektion einer Option bestimmt, welche weitere Untermenge an Optionen zur Verfügung stehen wird.
[18] 18. für genauere Angaben siehe die Hilfsfunktion von Altavista, „Spezielle Suchmöglichkeiten", Online unter: http://www.altavista.de/ doc/help/h_se_search_help_000.html (am 24.7.2000)
[19] für genauere Angaben siehe „Advanced Search", Online unter: http://hotbot.lycos.com (am 24.7.2000)
[20] z. B. in der Profi-Suche von Lycos, Online unter: http://www.lycos.de/help/ powerpanel.html (am 24.7.2000)
[21] vgl. die sog. „custom search folders" bei Northern Light. Online unter: http://www.northernlight.com/docs/ search_help_folders.html (am 24.7.2000)
[22] vgl. „ähnliche sites“ bei Excite [(Online unter: http://www.excite.de/info/ how_to.dcg#morelikethis (am 24.7.2000)] oder die „similar pages“ bei Google [Online unter: http://www.google.com/help.html#M (am 24.7.2000)].
[23] Im folgenden kürze ich das Wort „Versuchspersonen" mit „Vpn" ab, den Singular mit „Vp".
[24] für detailliertere Informationen zu diesem Produkt siehe die WebWasher- Homepage. Online unter: http:// www.webwasher.com/ (am 24.7.2000)
[25] siehe die betreffende Pressemitteilung, online unter: http://www.vibrio.de/ service/altavist/texte/170400.htm (am 24.7.2000)
[26] ebenfalls eine Selbstauskunft zum Stand im Januar 2000, Online unter: http://www.fireball.de/ technik.html (am 24.7.2000)
[27] in Forster 2000;16 wurden die IVW-Zah- len für den März 2000 festgehalten: Fireball mit ca. 56,7 Mio Page-Impressions, Infoseek mit 48,7 Page-Impressions, Altavista (nach Zählung des Betreibers) 45 Mio. Page-Impressions.