Das rasante Wachstum des Internets hält kontinuierlich an und verknüpft eine unvorstellbar große
Menge an Daten. Schon lange ist es auf eine Größe angewachsen, bei der eine sinnvolle Nutzung
ohne automatisierte Hilfsmittel nicht mehr möglich ist. Zwar ist aufgrund der dezentralen
Struktur des Internets eine genaue Berechnung des existenten Datenumfangs kaum möglich, erhobene
Schätzungen versuchen aber einen Eindruck davon zu vermitteln. So besagt eine Studie
der IDC, dass sich die digitalen Informationen bereits 2006 auf 161 Exabyte belief. Vorhersagen
über die weitere Entwicklung gehen davon aus, dass diese Masse sich bis 2010 von 161 auf 988
Exabytes mehr als versechsfacht hat. Außerdem ergab die Studie, dass ca. 95% der Daten im
Internet in unstrukturierter Form vorliegen. Diese nutzbringend zu verarbeiten, stellt eine große
Herausforderung dar (Gantz, 2007). Eine effektive Suche nach relevanten Informationen in dieser
digitalen Welt bildet den Grundstein der Informationsgewinnung.
Kurz nach der Erfindung des World Wide Webs galt in den Jahren 1991 bis 1994 das “Browsen”
als die dominierende Fortbewegungsmethode in diesen Netz. Parallel dazu entwickelten sich
die ersten Webcrawler, welche die Dokumente des Internets automatisch durchsuchen und in Datenbanken
indexierten. Die automatische Volltextsuche wurde möglich. Mit dieser neuen Option
wandelte sich das Suchverhalten der Nutzer. Anstatt zu erraten, welche Listeneinträge am passendsten
sind, konnten nun Suchbegriffe eingegeben und die Relevanz einzelner Treffer einer Ergebnisliste
überprüft werden. Die Geschwindigkeit des Suchens wurde durch dieses neue Konzept
erheblich erhöht, nicht aber die Geschwindigkeit des Findens. Denn auch die Anzahl der potentiell
relevanten Ergebnisse stieg deutlich an (Buzinkay, 2006, S. 177).
So durchsuchen Webcrawler stetig das Netz nach relevanten Informationen. Doch bleibt ihnen
der größte Teil des World Wide Webs verborgen und nur ein Teil der tatsächlich vorhandenen
Dokumente kann gefunden werden. Darüber hinaus liefert eine konkrete Suchabfrage eine so unfassbar
große Menge an Treffern, dass die Wahrscheinlichkeit eines Fundes beim ersten Ergebnis
der Wahrscheinlichkeit eines Lottogewinns nahe kommt. Durch Mehrdeutigkeiten im Text, die
Komplexität und die schiere Masse des WWW stoßen traditionelle Suchmaschinen schnell an ihre
Grenzen (Sack, 2010, S. 14).
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
1 Hintergrund und Forschungsfragen der Arbeit
2 Grundlegende Begriffe
2.1 Suchen oder Finden
2.2 Struktur von Datenbeständen
2.3 Unterschiedliche Arten der Relevanz
2.4 Information Retrieval
3 Suchen
3.1 Suchmaschinenarten
3.1.1 Suche in lokalen Datenbanken
3.1.2 Volltextsuchmaschinen
3.1.3 Metasuchmaschinen
3.1.4 Verzeichnisse
3.1.5 Spezielle Suchdienste
3.2 Suchmechanismen und Funktionsweisen
3.2.1 Webcrawler
3.2.2 Indexierung
3.2.3 Rangierungsprinzipien
3.3 Probleme der Suche und Lösungsansätze
3.3.1 Schwachstellen
3.3.2 Lösungsansätze
4 Finden
4.1 Personalisierte Internetsuche
4.1.1 Nutzerprofile als Basis der Personalisierung
4.1.2 Personalisierung der Suchanfrage
4.1.3 Personalisierung des Suchalgorithmus
4.1.4 Personalisierte Präsentation der Suchergebnisse
4.2 Kontextorientierte Konzepte
4.2.1 Semantic Web
4.2.2 Nutzenspotentiale
4.2.3 Problemfelder
4.2.4 Bisherige Umsetzung neuer Suchkonzepte
5 Vergleich verschiedener Suchmaschinen
5.1 Beschreibung des Vorgehens
5.2 Auswahl der Testobjekte
5.3 Ergebnisse und Auswertung
6 Zusammenhang und Ausblick
Literatur
A Suchbegriff “Positip VRZ 659” V
B Auswahl der zu testenden Maschinen - Teil 1
C Auswahl der zu testenden Maschinen - Teil 2
D Gefundene Antworten zur ersten Testfrage
E Gefundene Antworten zur zweiten Testfrage
F Gefundene Antworten zur dritten Testfrage
- Citar trabajo
- Sara Haupt (Autor), 2010, Die Geschichte vom Suchen und Finden in einer digitalen Welt, Múnich, GRIN Verlag, https://www.grin.com/document/179440