Durch die sich weiter verdichtende, weltweite Vernetzung entsteht das Bedürfnis, die sprachübergreifende Verständigung zwischen verschiedenen Ländern und Kulturen zu vereinfachen. Eine sprachtransparente Nutzung des Internets ist mangels ausgereifter maschineller Übersetzungssysteme noch nicht möglich. Das Cross-language Information Retrieval (CLIR) stellt einen Kompromiss dar: Der Anwender formuliert eine Suchanfrage in seiner Muttersprache und erhält als Ergebnis auch fremdsprachliche Trefferdokumente.
Im Rahmen dieser Master Thesis wurde ein Protoyp eines Cross-language Retrieval System entwickelt, das die Sprachen Deutsch, Englisch und Japanisch unterstützt. Als Architektur kommt das Interlingual Retrieval zum Einsatz, bei dem sowohl die Dokumente als auch die Anfragen in eine gemeinsame Interlingua übersetzt werden, innerhalb derer die eigentliche Suche durchgeführt wird. Die für das System gewählte Interlingua ist konzeptbasiert und weist dadurch keine Mehrdeutigkeiten auf. Damit Dokumente mittels des richtigen Konzeptnamens indexiert werden, wird eine automatische Sprach- und Konzepterkennung durchgeführt, die auf Basis von Kontextwörtern das korrekte Konzept eines mehrdeutigen Wortes berechnet.
Bei der Suchanfrage wird das richtige Konzept für einen mehrdeutigen Begriff durch Interaktion mit dem Benutzer festgelegt.
Neben der konzeptbasierten Suche wird auch die Phrasensuche unterstützt. Alternativ zu dem Zugriff über eine Weboberfläche steht das System als Web Service zur Verfügung.
Inhaltsverzeichnis
- 1 Einleitung
- 1.1 Motivation
- 1.2 Aufgabenstellung
- 1.3 Vorgehensweise und Struktur der Arbeit
- 2 Information Retrieval
- 2.1 Einführung und Definition des Information Retrieval
- 2.2 Struktur und Funktionsweise eines Information-Retrieval-Systems
- 2.3 Beurteilung von IR-Systemen
- 2.4 Gewinnung von Indextermen
- 2.5 Das Vektorraummodell
- 2.6 Auflösen von Mehrdeutigkeiten
- 2.7 Thesauren
- 3 Cross-language Information Retrieval
- 3.1 Einführung und Definition des Cross-language Information Retrieval
- 3.2 Architekturen von CLIR-Systemen
- 3.3 Auflösen von Mehrdeutigkeiten im CLIR
- 3.4 Interlingual Retrieval
- 3.5 Erkennung der Sprache eines Textes mit n-Grammen
- 4 Serviceorientierte Architekturen
- 4.1 Einordnung der serviceorientierten Architektur
- 4.2 Elemente einer serviceorientierten Architektur
- 4.3 Merkmale einer serviceorientierten Architektur
- 4.4 Web Services
- 5 Anforderungen und Entwurf des Systems
- 5.1 Vorbedingungen und Anforderungen an das System
- 5.2 Systemarchitektur und Systementwurf
- 5.3 1. Phase: Entwurf der Interlingua-Wörterbücher und Konzepterkennung
- 5.4 2. Phase: Entwurf des Indexierungsprozesses
- 5.5 3. Phase: Entwurf des Suchprozesses
- 5.6 Abschließender Systemüberblick
- 6 Verwendete Methoden und Werkzeuge
- 6.1 Allgemeine Werkzeuge
- 6.2 Apache Lucene
- 6.3 Lucene Erweiterungen und sonstige Werkzeuge
- 7 Implementierung der Suchanwendung
- 7.1 Allgemeines über das entwickelte System
- 7.2 Nutzung des Systems
- 7.3 Implementierung der Interlingua-Wörterbücher und Übersetzung
- 7.4 Implementierung der Indexierung
- 7.5 Implementierung der Suche als Webseite
- 7.6 Implementierung der Suche als Web Service
- 7.7 Beispielanfragen an die Suchanwendung
- 7.8 Überblick über die Projektdateien
- 8 Bewertung des Systems und mögliche Erweiterungen
- 8.1 Das Interlingua-Konzept
- 8.2 Bewertung der Indexierung
- 8.3 Bewertung der Suche
Zielsetzung und Themenschwerpunkte
Diese Masterarbeit befasst sich mit der Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur. Ziel ist die Entwicklung eines Systems, das effiziente und präzise Suchergebnisse über verschiedene Sprachen hinweg liefert.
- Sprachübergreifende Information Retrieval (CLIR)
- Serviceorientierte Architektur (SOA)
- Implementierung einer Such Anwendung
- Indexierung und Suchprozesse
- Interlingua-Konzept
Zusammenfassung der Kapitel
Kapitel 1 führt in das Thema ein und beschreibt die Motivation, Aufgabenstellung und Vorgehensweise. Kapitel 2 behandelt die Grundlagen des Information Retrieval, einschließlich der Bewertung von IR-Systemen und der Gewinnung von Indextermen. Kapitel 3 fokussiert auf Cross-Language Information Retrieval, verschiedene Architekturen und die Auflösung von Mehrdeutigkeiten. Kapitel 4 beschreibt serviceorientierte Architekturen und deren Elemente. Kapitel 5 präsentiert die Anforderungen und den Entwurf des entwickelten Systems, gegliedert in verschiedene Phasen (Entwurf der Interlingua-Wörterbücher, Indexierungsprozess, Suchprozess). Kapitel 6 beschreibt die verwendeten Methoden und Werkzeuge, insbesondere Apache Lucene. Kapitel 7 detailliert die Implementierung der Suchanwendung, inklusive der Implementierung der Interlingua-Wörterbücher, der Indexierung und der Suche als Web Service. Kapitel 8 bewertet das System und skizziert mögliche Erweiterungen.
Schlüsselwörter
Cross-language Information Retrieval (CLIR), Serviceorientierte Architektur (SOA), Information Retrieval (IR), Indexierung, Suche, Interlingua, Apache Lucene, Mehrdeutigkeitsauflösung, Vektorraummodell, Web Services.
- Quote paper
- Florian Quadt (Author), 2006, Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur, Munich, GRIN Verlag, https://www.grin.com/document/119720