Durch die sich weiter verdichtende, weltweite Vernetzung entsteht das Bedürfnis, die sprachübergreifende Verständigung zwischen verschiedenen Ländern und Kulturen zu vereinfachen. Eine sprachtransparente Nutzung des Internets ist mangels ausgereifter maschineller Übersetzungssysteme noch nicht möglich. Das Cross-language Information Retrieval (CLIR) stellt einen Kompromiss dar: Der Anwender formuliert eine Suchanfrage in seiner Muttersprache und erhält als Ergebnis auch fremdsprachliche Trefferdokumente.

Im Rahmen dieser Master Thesis wurde ein Protoyp eines Cross-language Retrieval System entwickelt, das die Sprachen Deutsch, Englisch und Japanisch unterstützt. Als Architektur kommt das Interlingual Retrieval zum Einsatz, bei dem sowohl die Dokumente als auch die Anfragen in eine gemeinsame Interlingua übersetzt werden, innerhalb derer die eigentliche Suche durchgeführt wird. Die für das System gewählte Interlingua ist konzeptbasiert und weist dadurch keine Mehrdeutigkeiten auf. Damit Dokumente mittels des richtigen Konzeptnamens indexiert werden, wird eine automatische Sprach- und Konzepterkennung durchgeführt, die auf Basis von Kontextwörtern das korrekte Konzept eines mehrdeutigen Wortes berechnet.
Bei der Suchanfrage wird das richtige Konzept für einen mehrdeutigen Begriff durch Interaktion mit dem Benutzer festgelegt.

Neben der konzeptbasierten Suche wird auch die Phrasensuche unterstützt. Alternativ zu dem Zugriff über eine Weboberfläche steht das System als Web Service zur Verfügung.

Excerpt

Inhaltsverzeichnis

1 Einleitung
- 1.1 Motivation
- 1.2 Aufgabenstellung
- 1.3 Vorgehensweise und Struktur der Arbeit
2 Information Retrieval
- 2.1 Einführung und Definition des Information Retrieval
- 2.2 Struktur und Funktionsweise eines Information-Retrieval-Systems
- 2.3 Beurteilung von IR-Systemen
- 2.4 Gewinnung von Indextermen
- 2.5 Das Vektorraummodell
- 2.6 Auflösen von Mehrdeutigkeiten
- 2.7 Thesauren
3 Cross-language Information Retrieval
- 3.1 Einführung und Definition des Cross-language Information Retrieval
- 3.2 Architekturen von CLIR-Systemen
- 3.3 Auflösen von Mehrdeutigkeiten im CLIR
- 3.4 Interlingual Retrieval
- 3.5 Erkennung der Sprache eines Textes mit n-Grammen
4 Serviceorientierte Architekturen
- 4.1 Einordnung der serviceorientierten Architektur
- 4.2 Elemente einer serviceorientierten Architektur
- 4.3 Merkmale einer serviceorientierten Architektur
- 4.4 Web Services
5 Anforderungen und Entwurf des Systems
- 5.1 Vorbedingungen und Anforderungen an das System
- 5.2 Systemarchitektur und Systementwurf
- 5.3 1. Phase: Entwurf der Interlingua-Wörterbücher und Konzepterkennung
- 5.4 2. Phase: Entwurf des Indexierungsprozesses
- 5.5 3. Phase: Entwurf des Suchprozesses
- 5.6 Abschließender Systemüberblick
6 Verwendete Methoden und Werkzeuge
- 6.1 Allgemeine Werkzeuge
- 6.2 Apache Lucene
- 6.3 Lucene Erweiterungen und sonstige Werkzeuge
7 Implementierung der Suchanwendung
- 7.1 Allgemeines über das entwickelte System
- 7.2 Nutzung des Systems
- 7.3 Implementierung der Interlingua-Wörterbücher und Übersetzung
- 7.4 Implementierung der Indexierung
- 7.5 Implementierung der Suche als Webseite
- 7.6 Implementierung der Suche als Web Service
- 7.7 Beispielanfragen an die Suchanwendung
- 7.8 Überblick über die Projektdateien
8 Bewertung des Systems und mögliche Erweiterungen
- 8.1 Das Interlingua-Konzept
- 8.2 Bewertung der Indexierung
- 8.3 Bewertung der Suche

Zielsetzung und Themenschwerpunkte

Diese Masterarbeit befasst sich mit der Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur. Ziel ist die Entwicklung eines Systems, das effiziente und präzise Suchergebnisse über verschiedene Sprachen hinweg liefert.

Sprachübergreifende Information Retrieval (CLIR)
Serviceorientierte Architektur (SOA)
Implementierung einer Such Anwendung
Indexierung und Suchprozesse
Interlingua-Konzept

Zusammenfassung der Kapitel

Kapitel 1 führt in das Thema ein und beschreibt die Motivation, Aufgabenstellung und Vorgehensweise. Kapitel 2 behandelt die Grundlagen des Information Retrieval, einschließlich der Bewertung von IR-Systemen und der Gewinnung von Indextermen. Kapitel 3 fokussiert auf Cross-Language Information Retrieval, verschiedene Architekturen und die Auflösung von Mehrdeutigkeiten. Kapitel 4 beschreibt serviceorientierte Architekturen und deren Elemente. Kapitel 5 präsentiert die Anforderungen und den Entwurf des entwickelten Systems, gegliedert in verschiedene Phasen (Entwurf der Interlingua-Wörterbücher, Indexierungsprozess, Suchprozess). Kapitel 6 beschreibt die verwendeten Methoden und Werkzeuge, insbesondere Apache Lucene. Kapitel 7 detailliert die Implementierung der Suchanwendung, inklusive der Implementierung der Interlingua-Wörterbücher, der Indexierung und der Suche als Web Service. Kapitel 8 bewertet das System und skizziert mögliche Erweiterungen.

Schlüsselwörter

Cross-language Information Retrieval (CLIR), Serviceorientierte Architektur (SOA), Information Retrieval (IR), Indexierung, Suche, Interlingua, Apache Lucene, Mehrdeutigkeitsauflösung, Vektorraummodell, Web Services.

Häufig gestellte Fragen

Was ist Cross-language Information Retrieval (CLIR)?

CLIR ermöglicht es, eine Suchanfrage in der Muttersprache zu stellen und Treffer in verschiedenen Fremdsprachen (hier: Deutsch, Englisch, Japanisch) zu erhalten.

Wie funktioniert das Interlingual Retrieval?

Sowohl Dokumente als auch Anfragen werden in eine gemeinsame, konzeptbasierte Interlingua übersetzt, um Mehrdeutigkeiten zu vermeiden.

Welche Rolle spielt Apache Lucene in diesem System?

Apache Lucene wird als zentrales Werkzeug für die Indexierung und die Durchführung der Suchprozesse eingesetzt.

Wie werden Mehrdeutigkeiten bei der Suche aufgelöst?

Das System nutzt automatische Konzepterkennung auf Basis von Kontextwörtern und Interaktion mit dem Benutzer bei der Suchanfrage.

Kann das System als Web Service genutzt werden?

Ja, die Anwendung ist in eine serviceorientierte Architektur (SOA) eingebettet und steht als Web Service zur Verfügung.

Excerpt out of 109 pages - scroll top

Details

Title: Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur
College: Fachhochschule Bonn-Rhein-Sieg
Grade: 1
Author: Florian Quadt (Author)
Publication Year: 2006
Pages: 109
Catalog Number: V119720
ISBN (eBook): 9783640231546
ISBN (Book): 9783640231713
Language: German
Tags: Implementierung Anwendung Metadaten- Volltextsuche Architektur
Product Safety: GRIN Publishing GmbH

Quote paper: Florian Quadt (Author), 2006, Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur, Munich, GRIN Verlag, https://www.grin.com/document/119720