Das unternehmensweite Data Warehouse bietet die Lösung eines umfassenden Informationsmanagements auf Basis des Information Retrievals. In diesem Zusammenhang sind Verfahren des Knowledge Discovery in Databases (Data Mining, Datenvisualisierung) von großer Bedeutung und essentiell für entscheidungsunterstützende Prozesse, da in gigantischen Datenmengen durch traditionell mathematisch-statistische Methoden, sowie durch Techniken der informationstheoretischen Kybernetik nach Informationen gesucht wird, aus denen im weiteren Wissen extrahiert wird.
In dieser Arbeit wird Ein Fuzzy Approach im Information Retrieval vorgestellt, der ein innovatives Verfahren darstellt, um vage bzw. ungenaue Daten, die in Form von Präferenz-Intervallen vorliegen, zur Wissensextraktion zu verwenden. Der neue Ansatz kombiniert die entscheidenden Theorien zur Behandlung unscharfer Daten und Mengen, Rough Sets und Fuzzy Sets, und extrahiert Zielintervalle, die einer approximativen Abbildung der Eingabedaten entsprechen. Aus diesen Rough Intervals werden Regeln formuliert, die als Regelbasis in wissensbasierten Systemen zur automatischen Entscheidungsunterstützung verwendet werden können.
In Kapitel 2 wird der Begriff des Information Retrieval in seinen Facetten erfaßt und klassifiziert. Dabei werden die unterschiedlichen Datenstrukturen, die Verfahren zur Indexierung von Dokumenten, sowie die Suchtechniken im Information Retrieval, verbunden mit den verschiedenartigen Computer-Informationssystemen, berücksichtigt. Dieser Teil versucht zudem, anhand der Entwicklung des elektronischen Information Retrievals den Bedarf und die Entstehung des heutigen Data Warehouse zu verdeutlichen.
Kapitel 3 betrachtet informationstheoretische Aspekte im Zusammenhang mit dem neuen Medium Internet, sowie die wachsende Informationsglobalisierung und die Problematiken der daraus resultierenden, exponentiell wachsenden Informationsmenge.
[...]
Inhaltsverzeichnis
1 Einleitung
2 Aspekte des Information Retrieval
2.1 Definition und Abgrenzung
2.2 Datenstrukturen in Informationssystemen
2.2.1 Hashbasierte und Intervallbasierte Datenstrukturen
2.2.2 Signature Files und Inverted Files
2.3 Verfahren zur Indexierung von Dokumenten
2.4 Suchtechniken im Information Retrieval
2.4.1 Boolesches Retrieval
2.4.2 Fuzzy Retrieval
2.4.3 Vektorraum-Modell
2.4.4 Probabilistisches Retrieval
2.5 Typologie von Informationssystemen
2.5.1 Information Retrieval Systeme
2.5.2 Datenbankmanagementsysteme
2.5.3 Expertensysteme
2.5.3.1 Werkzeuge für Expertensysteme
2.5.4 Weitere Informationssysteme
3 Der Einsatz von Information
3.1 Internet - Entwicklung und Wachstum
3.2 Information Overload
3.2.1 Information Overload im Unternehmen
3.2.2 Vom Information Retrieval zum Information Overload
3.2.3 Information Overload im Internet
4 Die Data Warehouse-Technologie
4.1 Einführung
4.2 Definition
4.3 Entwicklung der Data Warehouse-Technologie
4.4 Data Warehouse Konzepte
4.4.1 Data Warehouse Modell der META Group
4.4.2 Data Warehouse Funktionen nach SINGH
4.5 Datenverarbeitung im Data Warehouse
4.5.1 Transaction Processing und OLTP
4.5.2 Decision Support Processing
4.5.3 Online Analytical Processing (OLAP)
4.6 Data Warehouse und Data Marts
4.7 Data Warehouse Reifemodell
4.8 Data Warehousing in der Praxis
5 Verfahren des Data Mining
5.1 Einleitung
5.2 Definition
5.3 Knowledge Discovery in Databases (KDD)
5.4 Prozeßmodelle
5.5 Methoden und Muster
5.5.1 Muster
5.5.2 Methoden
5.5.2.1 Klassifikation
5.5.2.2 Schätzung
5.5.2.3 Vorhersage
5.5.2.4 Ähnlichkeitsgruppierung
5.5.2.5 Clustering
5.5.2.6 Deskription
5.6 Techniken
5.6.1 Entscheidungsbaumverfahren
5.6.2 Analyse von Beziehungen zwischen Datensätzen
5.6.3 Fallbasiertes Schließen
5.6.4 Automatische Clusteranalyse
5.6.5 Genetische Algorithmen
5.6.6 Neuronale Netze
5.6.7 Visualisierung
5.7 Data Mining-spezifische Problematiken
5.7.1 Datenprobleme
5.7.2 Prozeßprobleme
5.8 Data Mining im Unternehmen
5.8.1 Corporate Intranets
5.9 Anwendungen in der Praxis
6 Ein Fuzzy Approach im Information Retrieval
6.1 Verarbeitung unscharfer Daten
6.1.1 Rough Sets
6.1.1.1 Allgemein
6.1.1.2 Rough Set-Theorie
6.1.2 Fuzzy Logic
6.1.2.1 Allgemein
6.1.2.2 Entwicklungsüberblick
6.1.2.3 Fuzzy Sets
6.1.2.4 Possibilität versus Probabilität
6.1.2.5 Approximatives Schließen
6.1.2.6 Fuzzy Systeme
6.2 Entwicklung eines Fuzzy Approachs
6.2.1 Allgemein
6.2.2 Konzept
6.2.3 Realisierung
7 Die Implementierung eines Prototypen in C++
7.1 Allgemeine Programmbeschreibung
7.2 Klassen und Methoden
7.3 Input/Output Schnittstelle
7.4 Ein Musterbeispiel
7.5 Berechnung multipler Kategorie-Dependenzen
8 Zusammenfassung und Schlußbetrachtung
Zielsetzung & Themen
Das Hauptziel dieser Diplomarbeit ist die Vorstellung eines innovativen "Fuzzy Approach" im Bereich Information Retrieval, um vage oder ungenaue Daten zur Wissensextraktion nutzbar zu machen. Hierbei wird untersucht, wie durch die Kombination von "Rough Sets" und "Fuzzy Sets" entscheidungsunterstützende Regeln generiert werden können, um den Herausforderungen des wachsenden Datenvolumens in Unternehmen zu begegnen.
- Grundlagen des Information Retrieval und Datenstrukturen
- Konzept und Herausforderungen von Data Warehousing
- Methoden und Techniken des Data Mining (KDD)
- Theoretische Fundierung von Rough Sets und Fuzzy Logic
- Praktische Implementierung eines C++ Prototypen zur Regelextraktion
Auszug aus dem Buch
Die Data Warehouse-Technologie
„Als kürzlich auf einer Konferenz ein Vorstandsmitglied einen Management-Propheten danach fragte, wie sein Unternehmen den größtmöglichen Erfolg erreichen könnte, antwortete dieser: „Information“. Auf die Frage, wovor er sich denn in Zukunft am meisten in Acht nehmen sollte, erwiderte der Prophet: „Daten“.“ (zitiert nach [SINGH, 1998])
In den beiden letzten Jahrzehnten ist der Informationsfluß im Unternehmen und in dessen Umfeld stark angestiegen. Mit jedem neuen Produkt bzw. jeder technologischen Weiterentwicklung ist auch die damit verbundene Informationsmenge angestiegen und hat Jahr für Jahr noch nie erreichte Rekorddimensionen erlangt. Damit ein Unternehmen langfristig erfolgreich ist, muß es den dynamischen Prozeß des Informationsmanagements aktiv steuern und sich täglich mit neuen Herausforderungen beschäftigen. In den 90er-Jahren erkannte man, daß die Möglichkeiten, Daten zu sammeln, viel ausgereifter waren, als die Möglichkeiten, diese Daten auch auszuwerten. Man konnte in den Unternehmen eine regelrechte Datenüberschwemmung beobachten, die große Auswirkungen auf die Bereiche der Wissenschaft, Wirtschaft und Politik darstellte [SINGH, 1998]. Dieser Umstand erforderte die Entwicklung leistungsfähiger Systeme, die nicht alle in der Informationsgewinnung oder Datenspeicherung genügen mußten. Vielmehr wurde es wichtig, viele relevante Informationen in möglichst kurzer Zeit für den Endanwender verfügbar zu machen, daraus individuelles Wissen zu extrahieren und das gesamte System in einer flexiblen und transparenten Architektur unterzubringen.
Zusammenfassung der Kapitel
1 Einleitung: Beschreibt die Bedeutung von Information für Unternehmensentscheidungen und führt in die Problematik des "Data Overload" ein.
2 Aspekte des Information Retrieval: Erfasst den Begriff des Information Retrieval, klassifiziert Suchtechniken und untersucht verschiedene Informationssysteme.
3 Der Einsatz von Information: Analysiert die Entwicklung des Internets und die daraus resultierende Problematik des Information Overload.
4 Die Data Warehouse-Technologie: Erläutert das Konzept und die Möglichkeiten einer erfolgreichen Umsetzung von Data Warehouses für ein unternehmensweites Informationsmanagement.
5 Verfahren des Data Mining: Klassifiziert den Begriff des Data Mining im Zusammenhang mit KDD und stellt grundlegende Prozeßmodelle und Methoden vor.
6 Ein Fuzzy Approach im Information Retrieval: Erläutert den theoretischen Hintergrund von Rough Sets und Fuzzy Sets sowie das Konzept des entwickelten Fuzzy Approachs.
7 Die Implementierung eines Prototypen in C++: Dokumentiert den praktischen Teil der Arbeit, inklusive der Implementierung der C++ Klassen und der Beschreibung des Prototypen.
8 Zusammenfassung und Schlußbetrachtung: Fasst die Ergebnisse der Arbeit zusammen und bewertet den entwickelten Fuzzy Approach.
Schlüsselwörter
Information Retrieval, Data Warehouse, Data Mining, Fuzzy Logic, Rough Sets, Knowledge Discovery in Databases, Wissensextraktion, Information Overload, OLAP, Expertensysteme, Unternehmensmanagement, Entscheidungsunterstützung, Informationstechnik, Intervallbasierte Datenstrukturen, C++ Implementierung
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit behandelt die Entwicklung eines innovativen Fuzzy-Ansatzes innerhalb des Information Retrieval, um unsichere oder vage Datenbestände in Unternehmen für die Wissensextraktion nutzbar zu machen.
Was sind die zentralen Themenfelder?
Zentrale Themen sind Information Retrieval, Data Warehouse-Technologien, Data Mining-Methoden sowie die theoretischen Grundlagen der Fuzzy Logic und Rough Set-Theorie.
Was ist das primäre Ziel oder die Forschungsfrage?
Das primäre Ziel ist die Entwicklung eines Verfahrens, das aus vagen Daten, die als Präferenz-Intervalle vorliegen, entscheidungsunterstützende Regeln für wissensbasierte Systeme extrahiert.
Welche wissenschaftliche Methode wird verwendet?
Es wird ein hybrider Ansatz verfolgt, der Theorien zu unscharfen Daten (Rough Sets und Fuzzy Sets) kombiniert und diese praktisch in Form eines C++ Prototypen implementiert.
Was wird im Hauptteil behandelt?
Der Hauptteil befasst sich mit der Definition von Information Retrieval und Data Warehousing, der Klassifizierung von Data Mining-Techniken sowie der detaillierten Beschreibung des entwickelten Fuzzy-Algorithmus.
Welche Schlüsselwörter charakterisieren die Arbeit?
Wichtige Schlagworte sind Information Retrieval, Data Mining, Fuzzy Logic, Rough Sets und Data Warehouse.
Wie funktioniert der implementierte Prototyp "RoughProject.exe"?
Der Prototyp liest tabulator-getrennte Textdateien mit Präferenz-Intervallen ein, führt Berechnungen zur Intervallverknüpfung durch und generiert eine übersichtliche Regelbasis in CASE-Struktur.
Welche Vorteile bietet der Fuzzy-Ansatz gegenüber herkömmlicher Logik?
Im Gegensatz zur bivalenten Logik, die nur "wahr" oder "falsch" kennt, erlaubt der Fuzzy-Ansatz die Modellierung menschlicher Unschärfe und führt somit zu einer realitätsnäheren Approximation bei der Datenanalyse.
- Quote paper
- Lucian Rehm (Author), 1999, Ein Fuzzy Approach im Information Retrieval, Munich, GRIN Verlag, https://www.grin.com/document/1066