In dieser Ausarbeitung wird ein kleiner Überblick über das Web Retrieval gegeben.
Das Web Retrieval dient dem Sichten von abstrakten Datenbeständen wie sie im Internet vorliegen. Damit wird unter anderem das schnelle Durchsuchen dieser, teilweise doch sehr großen Datenmengen ermöglicht. Die Ergebnisse des Retrievals werden auch zur Analyse des Internets und zu statistischen Zwecken verwendet.

Leseprobe

Inhaltsverzeichnis

Einführung
Grundlagen Information Retrieval
- Mengentheoretische Modelle
- Algebraische Modelle
- Probabilistische Modelle
- Hybridmodelle
Web Information Retrieval
- Crawling
  - Das Web
  - Reguläre Ausdrücke
- Indexing
Tools für Webretrieval
[Anhang]
Quellenverzeichnis
Fazit

Zielsetzung und Themenschwerpunkte

Diese Ausarbeitung bietet einen einführenden Überblick in das Web Retrieval, eine Technik, die zur Suche und Analyse von Datenbeständen im Internet eingesetzt wird. Die Arbeit erläutert die Grundlagen des Information Retrieval und stellt verschiedene Modelle zur Relevanzbewertung von Dokumenten vor. Besonderes Augenmerk liegt auf dem Webcrawling, einem Prozess zur automatischen Erfassung von Webinhalten, sowie auf der Indexierung, die eine effiziente Suche in großen Datenmengen ermöglicht.

Grundlagen des Information Retrieval
Verschiedene Modelle zur Relevanzbewertung von Dokumenten
Der Prozess des Webcrawling
Die Indexierung von Webinhalten
Tools für Webretrieval

Zusammenfassung der Kapitel

Die Einleitung stellt den Leser in das Thema Web Retrieval ein und erläutert dessen Bedeutung für die Suche und Analyse von Daten im Internet.

Der Abschnitt "Grundlagen Information Retrieval" beleuchtet die verschiedenen Modelle des Information Retrieval, die zur Extraktion relevanter Informationen aus Dokumenten dienen. Hier werden verschiedene Ansätze wie Mengentheoretische Modelle, Algebraische Modelle, Probabilistische Modelle und Hybridmodelle vorgestellt.

Der Abschnitt "Web Information Retrieval" befasst sich mit dem Prozess des Webcrawling, der die Grundlage für die Suche im Internet bildet. Hier werden die wichtigsten Bestandteile eines Webcrawlers erläutert, wie z.B. die Seed, die Frontier, der Downloader, das Repository und der Parser. Der Abschnitt beleuchtet auch die Herausforderungen, die mit dem Crawling des Deep Web verbunden sind, sowie die Probleme, die durch Bad Server und Bad Crawling entstehen können.

Der Abschnitt "Indexing" erklärt, wie ein Index für Webinhalte erstellt wird, um eine effiziente Suche in großen Datenmengen zu ermöglichen. Die vier Phasen der Indexierung, die Text-Extraktion, die Tokenisierung, die Normalisierung und die Erstellung der Indexliste, werden detailliert beschrieben.

Im Abschnitt "Tools für Webretrieval" werden zwei wichtige Tools für das Web Retrieval vorgestellt: Lucene und Nutch. Lucene ist eine Bibliothek, die Funktionen zur Erstellung von Suchmaschinen bietet, während Nutch eine Open-Source-Suchmaschine ist, die auf Lucene basiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Web Retrieval, Information Retrieval, IR-Modelle, Webcrawling, Indexierung, Lucene, Nutch, Deep Web, Bad Server, Bad Crawling, reguläre Ausdrücke, Tokenisierung, Normalisierung, Lemmatisierung, Stemming, invertierte Liste.

Häufig gestellte Fragen

Was ist Web Retrieval?

Eine Technik zum Sichten, Durchsuchen und Analysieren von großen Datenbeständen im Internet.

Wie funktioniert Webcrawling?

Ein Crawler erfasst automatisch Webinhalte, beginnend bei einer Seed-URL, und speichert diese in einem Repository.

Was versteht man unter Indexierung?

Der Prozess der Aufbereitung von Daten (Tokenisierung, Normalisierung), um eine schnelle Suche in großen Mengen zu ermöglichen.

Was ist der Unterschied zwischen Lucene und Nutch?

Lucene ist eine Such-Bibliothek, während Nutch eine vollständige Open-Source-Suchmaschine ist, die auf Lucene basiert.

Was ist das Deep Web?

Teile des Internets, die nicht von herkömmlichen Suchmaschinen indexiert werden können.

Ende der Leseprobe aus 7 Seiten - nach oben

Details

Titel: Web Retrieval
Untertitel: Web Crawling & Indexing mit Lucene
Hochschule: Otto-von-Guericke-Universität Magdeburg (Institut für Technische und Betriebliche Informationssysteme (ITI))
Veranstaltung: Data & Knowledge Engineering
Autoren: Florian Uhde (Autor:in), Marco Hinz (Autor:in)
Erscheinungsjahr: 2010
Seiten: 7
Katalognummer: V178610
ISBN (eBook): 9783656008095
ISBN (Buch): 9783656927471
Sprache: Deutsch
Schlagworte: DKE Web Retrieval Crawler
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Florian Uhde (Autor:in), Marco Hinz (Autor:in), 2010, Web Retrieval, München, GRIN Verlag, https://www.grin.com/document/178610

Web Retrieval

Web Crawling & Indexing mit Lucene