Das Internet hat seit seiner "Entdeckung" durch die breite Masse stark an Popularität und damit an Größe zugenommen. Mittlerweile schätzt man die Größe des World Wide Web auf einige hundert Milliarden Webseiten bei ca. 500 Millionen Usern. Täglich kommen Millionen Seiten hinzu.
Um in dieser Menge an Informationen überhaupt etwas Gewünschtes finden zu können, sind Suchmaschinen immer wichtiger geworden. Zwar können selbst alle Suchmaschinen zusammen genommen nicht einmal annähernd das ganze Internet durchsuchen, trotzdem sind sie, richtig angewandt, unerlässlich für jeden Websurfer. Im Folgenden sollen zwei Suchmaschinen vorgestellt werden, die darum konkurrieren, über die größte Datenbasis aller Suchmaschinenanbieter zu verfügen. Diese sind zum einen Google und zum anderen die Suchmaschine AllTheWeb der Firma Fast Search + Transfer (FAST). Verglichen werden die Datenbasis, das Retrievalsystem und die Benutzeroberfläche dieser zwei Suchmaschinen. Es sollen ihre speziellen Stärken und Schwächen herausgestellt werden. Da vor allem Google viele verschiedene Suchmöglichkeiten anbietet, von denen manche nur für die USA verfügbar sind, wird hier nicht auf alle Funktionen eingegangen.
Gliederung
1. Einleitung
2. Daten basis
2.1 Google
2.2 AllTheWeb
2.3 Fazit
3. Retrievalsystem
3.1 Google
3.2 AllTheWeb
3.3 Fazit
4. Benutzeroberflache
4.1 Google
4.2 AllTheWeb
4.3 Fazit
5. Zusammenfassung
Glossar
Quellenverzeichnis
1. Einleitung
Das Internet hat seit seiner "Entdeckung" durch die breite Masse stark an Popularitat und damit an GroGe zugenommen. Mittlerweile schatzt man die GroGe des World Wide Web auf einige hundert Milliarden Webseiten bei ca. 500 Millionen Usern. Tag- lich kommen Millionen Seiten hinzu.
Um in dieser Menge an Informationen uberhaupt etwas Gewunschtes finden zu kon- nen, sind Suchmaschinen immer wichtiger geworden. Zwar konnen selbst alle Suchmaschinen zusammen genommen nicht einmal annahernd das ganze Internet durchsuchen, trotzdem sind sie, richtig angewandt, unerlasslich fur jeden Websurfer. Im Folgenden sollen zwei Suchmaschinen vorgestellt werden, die darum konkurrie- ren, uber die groGte Datenbasis aller Suchmaschinenanbieter zu verfugen. Diese sind zum einen Google und zum anderen die Suchmaschine AllTheWeb der Firma Fast Search & Transfer (FAST).
Verglichen werden die Datenbasis, das Retrievalsystem und die Benutzeroberflache dieser zwei Suchmaschinen. Es sollen ihre speziellen Starken und Schwachen her- ausgestellt werden.
Da vor allem Google viele verschiedene Suchmoglichkeiten anbietet, von denen manche nur fur die USA verfugbar sind, wird hier nicht auf alle Funktionen eingegan- gen.
2. Datenbasis
2.1 Google
Google bietet nach eigener Aussage Zugriff auf uber 3 Milliarden Web Dokumente verschiedenster Typen. Die Datenbasis der Google Web Search umfasst uber 2 Milliarden Dokumente (Google nennt auf seiner Homepage die Zahl 2.073.418.204).
Neben HTML-Dateien bietet Google auch die Suche nach anderen Dateiarten an. Momentan erfasst sind hier ca. 35 Millionen Dokumente vor allem in den Formaten Adobe Portable Document Format (pdf), Adobe PostScript (ps), MacWrite (mw), Microsoft Excel (xls), Microsoft PowerPoint (ppt), Microsoft Word (doc), Microsoft Works (wks, wps, wdb), Microsoft Write (wri), Rich Text Format (rtf), Text (ans, txt), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku) und Lotus WordPro (lwp).
3 Milliarden Webseiten werden von Google sogar taglich indexiert.
Allerdings sind erst 1,5 Mrd. der 2 Mrd. Datensatze voll indexiert und bei diesen auch immer nur ungefahr die ersten 100 KB des Textes. Interessant ist, dass bei Google nicht nur Text, Titel und URL einer Webseite die Dokumentationseinheit darstellen, sondern auch die Ankertexte der Links, die auf diese Webseite verweisen. Dies ge- schieht zum einen, weil Ankertexte genauere Beschreibungen eines Dokuments ent- halten konnen, als das Dokument selbst. Zum anderen konnen bestimmte Doku- menttypen wie z. B. Bilder ja gar nicht uber Text indexiert werden.
Das Indexieren selbst geschieht mit Hilfe von Crawlern, bei Google "Googlebot" ge- nannt. Der Googlebot aktualisiert den Index ca. ein Mal im Monat.
Bei 500 Millionen Dokumenten in Googles Datenbasis wurde jedoch noch nicht der Text indexiert, sondern lediglich die URL und der Ankertext des Links, der zu der betreffenden Webseite fuhrt, so dass diese Dokumente kaum von der Suchmaschine gefunden werden. Meistens handelt es sich hierbei um veraltete oder ungenaue Links, um Dubletten von vorhandenen Seiten oder um geschutzte Webseiten. Zu er- kennen sind sie daran, dass sie im Gegensatz zu den anderen Suchergebnissen kein Extract und keine Angabe der SeitengroGe enthalten und auch keine archivierte Version der Seite vorliegt.
(aus: http://www.searchengineshowdown.com/features/google/dbanalysis.shtml)
Fur den Fall, dass eine indexierte Webseite nicht mehr verfugbar ist, bietet Google die Moglichkeit, mit einem Klick auf den "Cached"-Link ("Im Archiv" bei google.de, siehe auch Abb. 8) die Seite so anzuzeigen, wie sie indexiert wurde.
Google bietet auGerdem eine Suche nach Bildern an. Hierin erhalt der User Zugriff auf uber 330 Millionen Bilder in den Formaten JPG und GIF.
Hinter dem Bereich "Groups" verbirgt sich ein Usenet-Archiv. Es enthalt alle News- groups-Beitrage bis zuruck ins Jahr 1981 mit insgesamt uber 700 Millionen Nachrich- ten.
Bei einem Klick auf die Rubrik "Verzeichnis" gelangt man zum Katalog des "Open Directory Project" (ODP), in dem Webseiten in Kategorien eingeordnet sind. Diesen Webkatalog kann man nun mit der Suchmaschinentechnik Googles durchsuchen.
Die Suchergebnisse allerdings sind im Gegensatz zu der Suche auf der Seite des ODP nach dem Google-Verfahren des PageRank (siehe Seite 11) geordnet.
2.2 AllTheWeb
Erst vor kurzem gab FAST bekannt, uber die groGte Datenbasis der Suchmaschi- nenanbieter zu verfugen.
Nach eigener Angabe befinden sich 2.112.188.990 Dokumente im Index, womit AllTheWeb knapp vor Google liegen wurde.
Allerdings werden diese Angaben durchaus auch angezweifelt, weil eventuell auch gesperrte Seiten, Dubletten und nicht mehr existierende Seiten mitgezahlt werden und manche Seiten sogar doppelt indexiert wurden (Schallhorn, 2001)
Seit Mai 2002 sind bei AllTheWeb neben den obligatorischen HTML-Dokumenten auch einige Millionen PDF-Dokumente indexiert, die sich auch einzeln suchen lassen. Der Vorteil gegenuber Google besteht darin, dass AllTheWeb den kompletten Text der Dokumente (sowohl HTML als auch PDF) indexiert und nicht nur 100 KB. Daruber hinaus gibt es bei AllTheWeb ein News-Archiv mit Neuigkeiten aus uber 3000 Onlinequellen sowie eine Bild- und Videodatenbank mit Bildern in den Forma- ten JPG, GIF und BMP, und Videos in den Formaten AVI (auch DivX), MPEG, Real und QuickTime. AuGerdem besteht die Moglichkeit nach MP3-Dateien und FTP-Files zu suchen.
Im August 2001 waren 70 Mio. Bild- und Videodateien, 2 Mio. Mp3s und 150 Mio. FTP-Eintrage in AllTheWebs Index verzeichnet. Das Indexieren geschieht bei AllTheWeb mittels des "FAST Web Crawlers”. Die Aktualisierung des Index wird nach Angaben AllTheWebs alle 7-11 Tage vorgenommen, so dass AllTheWeb aktueller als Google ist. Allerdings gibt es nicht wie bei Google die Moglichkeit, sich eine gecachete Kopie einer Webseite anzeigen zu lassen.
2.3 Fazit
Ein Vergleich der GroGe der beiden Datenbasen ist quasi unmoglich. Die Dokumen- tenzahlen, die beide Suchmaschinen auf ihrer Homepage angeben, liegen sehr nah beieinander, wenn auch AllTheWeb angibt, mehr Seiten als Google indexiert zu ha- ben. Wie viele Seiten jedoch gar nicht mehr existieren oder doppelt gezahlt wurden ist naturlich nicht nachprufbar, so dass lediglich feststeht, dass sowohl Google als auch AllTheWeb uber eine sehr groGe Datenbasis verfugen.
Die Vorteile von Google gegenuber AllTheWeb sind die groGe Menge an suchbaren Dateiformaten sowie die archivierten Versionen von Webseiten.
Sehr nutzlich ist, dass Google auch die Ankertexte eines Links indexiert. Das Newsgroup-Archiv und die PageRank-Version des ODP sind daruber hinaus hilfrei- che Informationsquellen.
Die Vorteile von AllTheWeb liegen ganz klar in der schnelleren Aktualisierung des Index (alle 7-11 Tage gegenuber ein Mal im Monat bei Google) und in der Tatsache, dass die Webseiten voll indexiert werden und nicht nur die ersten 100 KB.
3. Retrievalsystem
Die Angaben in diesem Kapitel beziehen sich lediglich auf die Web-Suche der beiden Suchmaschinen. Die Suchmoglichkeiten und Einstellungen bei den Spezialsuchen (z. B. nach Bildern oder Videos) konnen davon abweichen.
3.1 Google
Um erfolgreich bei Google suchen zu konnen, muss man einige Dinge uber die Funk- tionen dieser Suchmaschine wissen.
Allgemein ist zu beachten, dass in der einfachen Suche auf der Hauptseite eingege- bene Begriffe automatisch mit dem Operator UND verknupft sind. Eine Oder- Verknupfung von Suchbegriffen wird durch die Eingabe des Booleschen Operators OR erreicht. Mit dem "-"-Symbol kann eine Nicht-Verknupfung verwendet werden. Phrasen werden bei Google gekennzeichnet, indem man sie in Anfuhrungsstrichen in das Suchfeld eingibt. Diese Suche nach einer Phrase ist gleichzeitig der einzige Ab- standsoperator, den Google anbietet.
Worter, die sehr haufig vorkommen und kaum bei der Einschrankung einer Suche helfen, so genannte Stoppworter, werden bei Google ignoriert. Dies sind im Engli- schen zum Beispiel "the" und "of", im Deutschen "es", "von" und "zu". Ebenso werden einzelne Buchstaben und Zahlen sowie Domainkurzel wie "com" oder "de" nicht gesucht. Es ist jedoch moglich, diese dennoch in eine Suche zu integrieren, dazu muss man lediglich das "+"-Symbol vor den jeweiligen Begriff setzen.
Stoppworter innerhalb von Phrasen werden jedoch automatisch gesucht und benoti- gen kein "+"-Zeichen. Google ist ubrigens die einzige Suchmaschine, die es ermog- licht nach einem Zeichen zu suchen: dem Und-Zeichen "&".
Klammersetzung wird allerdings nicht unterstutzt und Google unterscheidet auch nicht zwischen GroG- und Kleinschreibung, nur die Booleschen Operatoren mussen in GroGbuchstaben eingegeben werden, da sie ansonsten als Stoppworter ignoriert werden.
Stemming (automatische Wortstammbildung) oder automatische Pluralbildung werden von Google ebenfalls nicht angeboten, so dass man ein Wort auch nur so findet, wie es eingegeben wurde. Eine Ausnahme bildet die Tippfehleranalyse. Google ist in der Lage Tippfehler zu erkennen und zu korrigieren. Wenn die eingegebene Suche zu 0 Treffern fuhrt, wird der Tippfehler automatisch korrigiert und der Benutzer darauf hingewiesen (siehe Abbildung 2).
Kategorie: World > Deutsch > > Nordrhein-Westfalen > Koln > Fachhochschule Koln
Fachhochschule Koln
Willkommen Welcome. B ienvenue Bienvenido. Kurzinformation
Wenn der eingegebene Begriff zwar zu Ergebnissen fuhrt, eine andere Schreibweise aber ebenfalls zu Treffern fuhrt, wird der User gefragt, ob er lieber nach diesem Begriff suchen mochte (Abb. 3).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3: Tippfehlerkorrektur bei Google (2)
Das Web wurde nach "retrievalsystem" durchsucht.
Meinten Sie: "retrievalsystem''
SCHARS Schuhspuren und -muster Archivierunqs- und Retrievalsystem
SCHARS. Schuhspuren und -muster Archivierungs- und Retrievalsystem.
Trunkierungen durch Jokerzeichen sind bei Google prinzipiell ebenfalls nicht moglich. Allerdings gibt es die (undokumentierte) Moglichkeit ein Wort innerhalb einer Phrase durch das "*"-Zeichen zu ersetzen. Eine Suche nach "wer * eine grube grabt" fuhrt also zu der Phrase "Wer anderen eine Grube grabt" aber auch zur Phrase "Wer En- ten eine Grube grabt".
AuGerdem bietet Google einige Moglichkeiten die Suche weiter einzuschranken. Die- se Einschrankungen konnen auch per Kurzel in das Suchfenster eingeben werden (allintitle: sucht z. B. ein Wort nur im Titel der Seite), bequemer kann man aber seine Suchbeschrankungen uber die Erweiterte Suche ("Advanced Search") auswahlen. Zunachst ist moglich, die Sprache des Dokuments auszuwahlen. In den Einstellun- gen (oder "Preferences") konnen auch mehrere Sprachen gleichzeitig ausgewahlt werden. Momentan stehen 35 Sprachen zur Auswahl. Weiterhin kann der User das Dateiformat der Suchergebnisse vorher festlegen und das Datum der Suchergebnis- se angeben. Bei letzterem kann der Benutzer lediglich wahlen, ob die Ergebnisse aus den letzten 3, 6 oder 12 Monaten stammen sollen. Die Datumsbegrenzung ist nur uber die Erweiterte Suche moglich und kann nicht durch ein Kurzel im Suchfenster eingegeben werden. Zudem kann eine Feldsuche eingestellt werden, das heiGt der Benutzer kann wahlen, ob Google nur Seiten anzeigen soll, in denen der Such- begriff an einer oder an mehreren bestimmten Stellen steht.
[...]
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.