In der heutigen Zeit werden Unternehmen und Institutionen, bedingt durch den technologischen Fortschritt, mit einer enormen Flut unterschiedlichster Daten konfrontiert. Das Earth Observing System der NASA mit seinen Satelliten produziert beispielsweise über 50GB Daten pro Stunde. Insbesondere für das Management enthalten diese Daten wertvolles Wissen, um Probleme aufzudecken, Produktionsabläufe zu optimieren oder bessere Zukunftsprognosen anzustellen. Resultat dieser Bemühungen um den strategischen Wettbewerbsfaktor Wissen ist eine langfristig bessere Positionierung des Unternehmens am Markt.
Ohne Analyse dieser Daten steht jedoch das Wissen nicht zur Verfügung. Aufgrund der Datenmenge scheiden jedoch manuelle Analyseverfahren aus und es werden schnelle und effiziente automatisierte Analyseverfahren nötig. Mit dem Data Mining beziehungsweise dem Knowledge Discovery in Databases (KDD) existiert ein mächtiges Werkzeug, um die sehr umfangreiche Aufgabe der Wissensextraktion zu bewältigen, so daß das Interesse der Forschung und Industrie an diesem Gebiet stetig ansteigt.
Anzumerken ist jedoch, daß das Data Mining ein relativ junges Forschungsgebiet ist und daher die Meinungen, was Data Mining ist und was Data Mining zugeordnet werden soll, teilweise stark differieren.
In dieser Arbeit wird im ersten Kapitel ein allgemeiner Überblick über Data Mining gegeben. Dazu wird der Begriff Data Mining erläutert, gegenüber dem KDD abgegrenzt und das Data Mining bezüglich seiner Arten, Aufgaben, Ziele und Bedeutung eingeordnet. Im zweiten Kapitel werden verschiedene etablierte und neuere Data Mining-Verfahren vorgestellt. Der konkreten Ausgestaltung des Data Mining in der Praxis widmet sich Kapitel drei. Neben der Vorstellung des CRISP-DM Modells und des Ansatzes Data Mining direkt in Datenbank-Management Systemen zu integrieren, wird die Anwendung anhand von drei Beispielen: SQL/MM, SAS und SPSS vorgestellt. Im vierten Kapitel wird exemplarisch auf die vielfältigen wirtschaftlichen
Anwendungsmöglichkeiten des Data Mining eingegangen. Nach einem Überblick werden die Bereiche Marketing, Handel, Bankenwesen, Verbrechensbekämpfung und Suchmaschinen genauer beleuchtet. Daß auch beim Data Mining einige Probleme auftreten, wird im Kapitel fünf betrachtet. Der Fokus liegt hier auf den Problemfeldern Softwarequalität, Datenschutz, Laufzeitverhalten und Aussagekraft der Ergebnisse. Abgeschlossen werden die Ausführungen dieser Arbeit mit einer Zusammenfassung.
Inhaltsverzeichnis
Einleitung 1 Überblick über das Data Mining
1.1 Der Begriff Data Mining
1.2 Einordnung des Data Mining
1.3 Arten des Data Mining
1.4 Ziele, Aufgaben und Bedeutung des Data Mining 2 Verfahren und Umsetzungen
2.1 Clusteranalyse
2.2 Klassifizierung
2.3 Assoziierung
2.4 Neuronale Netze, Fuzzy Theorie und Genetische Algorithmen . 3 Analyseprozeß in der Praxis
3.1 CRISP-DM Modell
3.2 Data Mining in Datenbank Management Systemen
3.3 SQL/MM
3.4 SAS
3.5 SPSS 4 Wirtschaftliche Anwendungsmöglichkeiten
4.1 Überblick
4.2 Marketing
4.3 Bankenwesen
4.4 Handel
4.5 Verbrechensbekämpfung
4.6 Suchmaschinen 5 Probleme
5.1 Datenproblematik
5.2 Softwarequalität
5.3 Datenschutz
5.4 Rechenzeitverhalten
5.5 Aussagekraft der Ergebnisse
Zusammenfassung
Literaturverzeichnis
Einleitung
In der heutigen Zeit werden Unternehmen und Institutionen, bedingt durch den technologi- schen Fortschritt, mit einer enormen Flut unterschiedlichster Daten konfrontiert. Das Earth Observing System der NASA mit seinen Satelliten produziert beispielsweise über 50GB Da- ten pro Stunde (NASA (2005)). Insbesondere für das Management enthalten diese Daten wertvolles Wissen, um Probleme aufzudecken, Produktionsabläufe zu optimieren oder bessere Zukunftsprognosen anzustellen. Resultat dieser Bemühungen um den strategischen Wettbe- werbsfaktor Wissen ist eine langfristig bessere Positionierung des Unternehmens am Markt. Ohne Analyse dieser Daten steht jedoch das Wissen nicht zur Verfügung. Aufgrund der Daten- menge scheiden jedoch manuelle Analyseverfahren aus und es werden schnelle und effiziente automatisierte Analyseverfahren nötig. Mit dem Data Mining beziehungsweise dem Knowled- ge Discovery in Databases (KDD) existiert ein mächtiges Werkzeug, um die sehr umfangreiche Aufgabe der Wissensextraktion zu bewältigen, so daß das Interesse der Forschung und Indu- strie an diesem Gebiet stetig ansteigt (Petrak (1997, S.1)). Anzumerken ist jedoch, daß das Data Mining ein relativ junges Forschungsgebiet ist und daher die Meinungen, was Data Mining ist und was Data Mining zugeordnet werden soll, teilweise stark differieren. In dieser Arbeit wird im ersten Kapitel ein allgemeiner Überblick über Data Mining gegeben. Dazu wird der Begriff Data Mining erläutert, gegenüber dem KDD abgegrenzt und das Data Mining bezüglich seiner Arten, Aufgaben, Ziele und Bedeutung eingeordnet. Im zweiten Kapi- tel werden verschiedene etablierte und neuere Data Mining-Verfahren vorgestellt. Der konkre- ten Ausgestaltung des Data Mining in der Praxis widmet sich Kapitel drei. Neben der Vorstel- lung des CRISP-DM Modells und des Ansatzes Data Mining direkt in Datenbank Management Systemen zu integrieren, wird die Anwendung anhand von drei Beispielen: SQL/MM, SAS und SPSS vorgestellt. Im vierten Kapitel wird exemplarisch auf die vielfältigen wirtschaftli- chen Anwendungsmöglichkeiten des Data Mining eingegangen. Nach einem Überblickwerden die Bereiche Marketing, Handel, Bankenwesen, Verbrechensbekämpfung und Suchmaschinen genauer beleuchtet. Daß auch beim Data Mining einige Probleme auftreten, wird im Kapitel fünf betrachtet. Der Fokus liegt hier auf den Problemfeldern Softwarequalität, Datenschutz, Laufzeitverhalten und Aussagekraft der Ergebnisse. Abgeschlossen werden die Ausführungen dieser Arbeit mit einer Zusammenfassung. Da der Rahmen dieser Arbeit nur einen kleinen Einblick in die sehr umfangreiche Thematik erlaubt, müssen die jeweiligen Ausführungen knapp gehalten werden.
Kapitel 1 Überblick über das Data Mining
1.1 Der Begriff Data Mining
Unter dem Begriff Data Mining werden in der Literatur Techniken zum systematischen voll- oder halbautomatischen Auffinden nützlicher und interessanter Regeln und Muster verstanden ((Bissantz 1996, S.1)). Gesucht wird in Datenbeständen, großen strukturierten, teilwei- se dynamischen oder komplex strukturierten, Beständen numerischer, nominal oder ordinal skalierter Daten, (Gebhardt (1994, S.9)). Ziel ist die Entdecken und Extraktion von im- plizitem Wissen. Eine exaktere Definition läßt sich nicht angeben, da in der Literatur keine einheitliche existiert. So finden sich Definitionsansätze mit informationstechnischen Schwerpunkt bei Berry u. Linoff (1997) und Decker u. Focardi (1995). Berry und Linoff verstehen unter Data Mining die Erforschung und Analyse großer Datenmengen mit automatischen beziehungsweise halbautomatischen Werkzeugen mit dem Ziel bedeutungsvolle Muster und Regeln aufzudecken. Bei Decker und Focardi ist Data Mining die Problemlösungsmethodik für logische oder mathematische Muster und Regelmäßigkeiten in Daten zu erkennen. Eine etwas andere Sichtweise findet sich bei Knobloch u. Weidner (2000) oder Thearling (2005). Dort wird unter Data Mining die nichttriviale Entdeckung gültiger, neuer, potentiell nützlicher, verständlicher Muster in großen Datenbanken verstanden. Explizites Wissen gewinnt man aus den durch das Data Mining gewonnenen Mustern durch Interpretation und Evaluation. Nicht genau definiert ist, welche Verfahren, die derartige Datenanalysen durchführen können, konkret dem Data Mining zuzuordnen sind. Aufgrund der Nichttrivialität der Suche in den Datenbanken werden Methoden aus der Statistik und aus dem Bereich wissensbasierter Systeme angewendet (Lusti (1999, S.350)). Ursprünglich läßt sich der Begriff Data Mining dem Bereich Statistik zuordnen. Dort kennzeichnet Data Mining die selektive Methodenanwendung zur Bestätigung vorformulierter Hypothesen (Grob u. Bensberg (1999)). Daher haben auch heute noch viele Data MiningMethoden ihren Ursprung in statistischen Verfahren.
1.2 Einordnung des Data Mining
Die Einordnung hängt eng mit der Abgrenzung des Data Mining gegenüber dem Knowledge Discovery in Databases (KDD) zusammen. Unter KDD wird ein nichttrivialer Prozeß verstan- den, der valide, potentiell nützliche und interessante, neuartige und in Syntax und Semantik klar verständliche Muster in Daten identifiziert (Fayyad u. a. (1996b, S.66/67)). KDD ist der gesamte Prozeß zur Wissensgewinnung von den Rohdaten aus bis zu verständlichen Aussa- gen beziehungsweise Zusammenhängen (Van Hoang (2004, S.2/3)). Dieser kann aufgrund seiner Komplexität nicht vollautomatisch ablaufen, sondern benötigt menschlichen Eingriff (Mayr (1999a, S.23)). Unterteilt wird der Prozeß in vier oder fünf Phasen. Fayyad u. a. (1996b) unterscheiden eine Selektionsphase zur Auswahl von Daten aus der Gesamtdaten- menge, eine Vorverarbeitungsphase zur Säuberung der Daten (Korrektur falscher Einträge, Ergänzen von fehlenden Daten), eine Transformations- beziehungsweise Codierungsphase der Daten für die Analyse, eine Data Mining-Phase zum Ermitteln der Muster und Beziehungen und eine Interpretations- und Evaluationsphase, im Rahmen derer die Muster in eine benut- zerfreundliche und verständliche Form, gebracht werden . In Nakhaeizadeh u. a. (1998, S.2) werden die Selektion und Vorverarbeitung zu einer Phase zusammengefaßt, während bei Petrak (1997, S.4-8) zwar die beiden letzten Phasen gleich sind, jedoch statt der drei ersten Phasen eine Planungsphase zur Festlegung organisatorischer Punkte und eine Vorbe- reitungsphase für die konkreten Daten angeführt werden. Zu beachten ist, daß die Phasen iterativ sind und mehrmals in unterschiedlicher Reihenfolge durchlaufen werden können. Daher sind Planung und Durchführung des KDD-Prozesses in der Regel nicht automatisierbar (Düsing (1998, S.295)). Allen Modellen gemeinsam ist, daß das Data Mining als der Teilschritt des KDD angesehen wird, welcher für die Anwendung der Algorithmen zur Musterfindung zuständig ist. Teilweise wird in diesem Zusammenhang auch von einem Data Mining im engerem Sinne gesprochen (Fayyad u. a. (1996a, S.66/67), Reinartz (1999, S.1-2) und Soeffky (1997, S.32)). In einigen Literaturquellen existiert dagegen die Ansicht den Begriff Data Mining mit dem Begriff KDD gleichzusetzen (Zytkow u. Quafafou (1998, S.V) und Küppers (1999, S.23/24)). Dieser Ansicht wird in dieser Arbeit aber nicht gefolgt. Schließlich läßt sich das Data Mining noch in Bezug auf seine Zugehörigkeit zu den Daten- analyseproblemen einordnen. Datenanalyseprobleme werden in zwei Klassen eingeteilt, nach dem Kriterium inwieweit Hypothesen des Anwenders eingehen. Unterschieden werden hypo- thesengetriebene, die Annahmen oder Theorien anhand von Datenbeständen verifizieren oder falsifizieren sollen und hypothesenfreie Probleme, bei denen ohne Annahme einer speziellen Hypothese neue Erkenntnisse aus Daten erzeugt werden sollen. Da Data Mining-Verfahren nicht Muster durch vorgegebene Präferenzen übersehen sollen, sind sie nach den Ausführungen des vorangegangenen Abschnitts der zweiten Kategorie einzuordnen (Knobloch u. Weid- ner (2000), Bissantz (1998, S.322) und Mertens u. a. (1997, S.180)).
1.3 Arten des Data Mining
Die klassische Form des Data Mining ist die Suche nach Mustern in tabellarisch vorliegenden Datenbeständen. Die Muster können dabei verschiedener Natur sein, wie Objektbeziehungen, räumliche Muster, zeitliche Verläufe oder mathematische Gesetzmäßigkeiten. Dieser Art widmet sich die vorliegende Arbeit. Da nicht alle Daten in tabellarischer Form vorliegen, sind in letzter Zeit weitere Arten des Data Mining entstanden. Liegen die Daten in Textform vor, so spricht man von Text Mining. Hierbei werden Texte auf ihre Ähnlichkeiten hin analysiert und klassifiziert. Die entsprechende Analyse von Internetseiten, sowohl in Bezug auf Inhalt, als auch auf Navigationsverhalten, wird Web Mining genannt. Der neueste Stand der Forschung, unter anderem am Frauenhofer Institut, ist das Multimedia Mining mit dem Bilder und Filme klassifiziert und analysiert werden sollen (Dürr (2004, S.2/3)).
1.4 Ziele, Aufgaben und Bedeutung des Data Mining
Die Ziele und Aufgaben des Data Mining lassen sich unmittelbar aus der Begriffsdefinition ableiten. Das Data Mining soll allgemein verwendbare, effiziente Methoden bereitstellen, mit denen autonom die in Unternehmensdatenbanken schlummernden Informationen gesucht, identifiziert und als Wissen extrahiert werden, damit diese schnellere und fundiertere unternehmerische Entscheidungen möglich machen. Dadurch stellen sich dann Effekte wie Steigerung der Kundenzufriedenheit, Kenntnis der Markt-Segmentierung oder Erschließung neuer Vertriebskanäle ein, welche Garanten für eine längerfristige erfolgreiche Unternehmung sein können (Van Hoang (2004, S.4) und Scheer (1996, S.75)). Zur Verwirklichung der Ziele werden verschiedene Anforderungen an Data Mining-Systeme gestellt: - In den meisten Unternehmen existieren Rechnernetzwerke mit mehreren heterogenen Datenbanken. Um diese effizient auswerten zu können, sind Data Mining-Algorithmen nötig, die entweder parallel oder auf verschiedene Rechenmaschinen verteilt arbeiten können (Chen u. a. (1999, S.3) und Nakhaeizadeh (2000, S.205/206)).
- Wegen der Vielzahl von eingesetzten Anwendungen in einer Unternehmung existieren ebenso viele Datentypen. Um diese analysieren zu können, müssen im Rahmen des Data Mining die verschiedenen Typen durch entsprechende Transformationen auf eine einheitliche Form gebracht werden. Dieser Prozeß geht jedoch oft mit einem Verlust von Informationen einher (Heuer u. Saake (2000, S.590)).
- Die sehr großen Datenmengen der heutigen Zeit erfordern effiziente Algorithmen. Algo- rithmen mit polynomialen oder exponentiellen Laufzeiten sind daher höchstens bei Ver- ringerung der zu analysierenden Datenmenge einsetzbar, was jedoch einen merklichen Verlust an Informationen zur Folge hat (Bissantz u. Hagedorn (1993, S.481)).
- Damit nicht beliebig vieler Muster gefunden werden, müssen dir durch die Data MiningAlgorithmen gefundenen Muster interessant sein (Müller u. a. (1998, S.248-264)). Die technische Verwirklichung dieses Anspruchs ist nicht einfach und reicht von durch die fachliche Fragestellung und/oder persönliche Vorkenntnisse des Anwenders programmierte Filter bis zu Verfahren, die das Vorliegen der Eigenschaften wie Auffälligkeit, Neuigkeitswert, Abweichung vom Erwarteten beziehungsweise das Nichtvorliegen von Redundanz, Bedeutungslosigkeit, Bekanntheit, Trivialität und Irrelevanz überprüfen (Lackes u. a. (1998, S.251) und Küppers (1999, S.88)).
- Die Unsicherheit, die sich aufgrund fehlerhafter oder unvollständigen Daten ergibt, soll in geeigneter Weise dargestellt werden. Vielfach werden dazu statistische Maße (zum Beispiel Vertrauensintervalle oder Fehlermaße) verwendet (Hagedorn u. a. (1997, S.603) und Bissantz u. Hagedorn (1993, S.485)). Die Bedeutung des Data Mining läßt sich am besten anhand des Einsatzes in Unternehmen verdeutlichen. So läßt sich einer Studie der Universität Eichstätt-Ingolstadt entnehmen, daß 2002 in Deutschland fast die Hälfte der 500 größten Unternehmen Methoden aus den Be- reichen Data Mining oder multivariate Statistik zur Analyse ihrer Kundendaten einsetzen. Zudem planen fast alle Unternehmen, die Data Mining-Methoden verwenden, die Nutzung weiter auszubauen. Als Grund dafür nennt die Studie, daß 87% der Unternehmen eine hohe Rentabilität ihrer Data Mining-Projekte festgestellt haben (Donath (2002)). Die guten Zukunftsaussichten für das Data Mining lassen sich einmal untermauern durch die Aussagen von IBM (Dürr (2004)) beziehungsweise Frawley u. a. (1991, S.1-27) oder Chamoni u. Gluchowski (1998, S.25), die davon ausgehen, daß sich die weltwei- ten Informationsmengen alle 20 Monate verdoppeln und somit fortschrittliche Verfahren zur Informationsgewinnung unumgänglich sind. Weiterhin gibt das Beratungsunternehmen NH- Consult an, daß lediglich 10% aller in Unternehmen gespeicherten Datenbestände analysiert werden (NHConsult GmbH (2005)). Es ist somit noch viel Potential vorhanden. Im Hinblick auf Beschleunigung von Routinetätigkeiten durch Automatisierung, Verbesserung von Leistungsangebot und -erstellung und dem Aufdecken versteckter Geschäftsmöglichkei- ten ist Data Mining sicherlich eine guter Ansatz. Insbesondere bei der heutigen Informati- onsüberflutung ist eine Filterung der Informationen, die zum Anwender gelangen zwingend notwendig (Bork (1994)). Jedoch darf nicht übersehen werden, daß die Qualität der Er- gebnisse von Data Mining-Methoden stark von der Güte der Datenstrukturierung, von dem Problem angemessenen Methoden und der Aktualität der Daten abhängen. Zudem ist ein Nutzen ist nur gegeben, wenn die Erkenntnisse, die aus dem Data Mining gezogen werden, auch umgesetzt werden. Somit sollte Data Mining keinesfalls als eine Lösung aller Probleme angesehen werden, sondern nur als einen Schr itt in die richtige Richtung (Lohre (2001, S.17/18)).
Kapitel 2 Verfahren und Umsetzungen
Der entscheidende Schritt bei der Datenanalyse mit Data Mining ist die Auswahl einer für das jeweilige Problem geeigneten Methode (Mayr (1999b, S.16)). Dabei werden teilweise auch mehrere Verfahren zum Vergleich oder kombiniert angewendet (Dastani (2005)). Analysemethoden können in aktive und passive Verfahren unterteilt werden. Bei passiven Verfahren wird eine zu prüfende Hypothese vom Benutzer vorgegeben, während bei akti- ven Verfahren Hypothesen erst datengetrieben beziehungsweise explorativ generiert werden müssen (Lusti (1999, S.253)). Da weiterhin dem im vorangegangen Kapitel eingeschlage- nen Weg gefolgt wird, in dieser Arbeit das Data Mining im engeren Sinne zu betrachten, sind nur aktive Analysemethoden einzubeziehen (Küppers (1999, S.51/52)). Eine Klassifikation der Data Mining-Methoden ergibt sich aus der Zuordnung des Data Mi- ning zum induktiven maschinellen Lernen. Unter diesem versteht man einen automatisierten Modellbildungsprozeß, welcher das Aufdecken neuen Wissens und neuer Zusammenhänge zum Ziel hat (Krahl u. a. (1998, S.59/60) und Lohre (2001, S.21)). Das induktive Lernen unterscheidet zwischen Verfahren des ” Überwachten Lernens“ und des ”UnüberwachtenLer- nens“(Bissantz u. Küppers ([1996], S.[62])). Während unter überwachtem Lernen Verfahren verstanden werden, die Daten in vorgegebene Klassen einordnen, versuchen die Verfahren des unüberwachten Lernens interessante Strukturen selbst zu erkennen und eigenständig Klassen zu generieren. Dabei existieren zwei Sichtweisen, nämlich die Segmentierung, die Suche nach einer globalen Strukturierung mit dem Ziel einer Partionierung in Cluster und die Assoziierung, die Suche nach Regeln und Mustern, nach vergleichbaren Datenobjekten, also Verfahren die Aussagen über die partielle Strukturiertheit der Daten machen (Krahl u. a. ([1998], S.[78]) und Küppers ([1999], S.[55])). Neben den in diesem Kapitel vorgestellten Data Mining-Verfahren, existieren noch weitere, die meistens aus den Bereichen Statistik und Künstliche Intelligenz stammen (Chamoni ([1998], S.[201])). Für weitere Informationen zu diesen wird auf entsprechende Literatur verwiesen, zum Beispiel Witten u. Frank ([1999]), Althoff u. Bartsch-Spörl ([1996]) oder Neeb ([1999]).
2.1 Clusteranalyse
Die Clusteranalyse gehört zu den Methoden des unüberwachten Lernens. Sie faßt Verfahren aus dem Gebiet der multivariaten Statistik zusammen, die objektiv oder automatisiert einen Datenbestand in Klassen mit Daten ähnlicher Merkmalsausprägungen einteilen. Dabei wird das ”divideandconquerPrinzip“verfolgt(Neeb([1999],S.[84])).Klarabzugrenzenistdieses Verfahren von der Klassifizierung, bei welcher die Klassen vorgegeben werden, während sie bei der Clustering erst aus den Daten ermittelt werden. Konkret läßt sich die Clusteranalyse in zwei Phasen unterteilen. Deren Ausgangspunkt ist meistens eine Datenmatrix, in deren Zeilen die Beobachtungen und in deren Spalten die Va- riablen stehen. Auf Grundlage dieser Matrix werden die Assoziationen zwischen zwei Objekten quantifiziert, indem anhand eines Ähnlichkeitsmaßes, unter Berücksichtigung möglichst vieler Objektmerkmale, versucht wird, Cluster zu finden und eine passende Ähnlichkeitsmatrix zu berechnen (Grimmer u. Mucha ([1998], S.[111])). Dabei sollen zwischen den Clustern die Ähnlichkeitenmöglichst klein und innerhalb der Cluster möglichst groß sein (Hartung u. a. ([1984], S.[1])). Darauf aufbauend werden Clusteralgorithmen zur Zuordnung neuer Objekte zu den gefunden Clustern ermittelt (Düsing ([1998], S.[297])). Die verschiedenen Clusteralgorithmen lassen sich bezüglich ihrer Vorgehensweise einteilen (Backhaus u. a. ([1996], S.[133])): - Hierarchische Methoden existieren in divisiver und agglomerativer Ausprägung. Der divisive oder ”Top-Down-“AnsatzfaßtdieDatenzuerstineinegroßeGruppezusam- men und unterteilt dann in immer kleinere Gruppen ähnlicher Merkmale anhand des Ähnlichkeitsmaßes.Beim agglomerativen oder ”Bottom-Up-“AnsatzistdasVerfahren genau umgekehrt. Die Verfahren brechen ab sobald die gewünscht Anzahl Gruppen gebildet wurde (Chamoni, P. u. Gluchowski, P. ([1998], S.[306]/[307])). - Partionierende Verfahren gehen dagegen von einer vorgegebenen Gruppierung der Objekte aus und tauschen dann zwischen den Gruppen so lange bis eine Zielfunktion optimal wird (Chamoni, P. u. Gluchowski, P. ([1998], S.[308]/[309])). - Überlappende Methoden liegen vor, wenn die Zuordnung eines Datensatzes in mehrere Gruppen möglich ist. Es wird dabei jeweils das Maß für die Zugehörigkeit berechnet. Jedoch sind zu große Überschneidungen zu vermeiden, da ansonsten eine Interpretation der Ergebnisse schwierig wird. Praktische Relevanz besitzen derzeit jedoch nur agglomerative Ansätze, da sie leicht zu implementieren und im Vergleich zu den anderen Verfahren weniger rechenintensiv sind (Küppers ([1999], S.[71])). Eingesetzt werden die Verfahren der Clusteranalyse zum Beispiel bei der Unterteilung des Marktes in homogene Käufergruppen, der sogenannten Marktsegmentierung (Düsing ([1998], S.[297])).
2.2 Klassifizierung
Klassifizierungsverfahren versuchen ähnlich wie die Clusteranalyse Daten Klassen zuzuord- nen, jedoch in vordefinierte Klassen. Somit gehört die Klassifizierung zu den Verfahren des überwachten Lernens. Die Zuordnung erfolgt mit Hilfe eines Klassifikators. Dieser wird auf Basis von bekannten Fällen durch Training erzeugt (Mertens u. Wieczorrek (2000, S.220)). Dazu wird der Gesamtdatenbestand in eine größere Trainingsdatenbank und eine kleinere Testdatenbank aufgeteilt. Anhand der Trainingsdatenbank versucht das System ein Modell zu bestimmen, dessen Güte dann mit der Testdatenbank überprüft wird. Durch Ite- ration dieses Schrittes wird das Modell so gut wie möglich an die Trainingsdaten angepaßt und der Klassifizierungsfehler minimiert (Lohre (2001, S.22)). Mit dem so entwickelten Modell können neue Objekte in die Klassen eingeordnet oder unbekannte Klassenmerkmale vorhergesagt werden (Aggarwal u. Yu (1999, S.14) und Dürr (2004, S.4)). Die beim Lernprozeß mit der Trainingsdatenbank eingesetzten Methoden sind vielfältig und stammen aus dem Bereich Künstliche Intelligenz oder aus den Entscheidungsbaummethoden. Ohne näher darauf einzugehen, können Nachbarschaftssuche, Diskriminanzanalyse, Regelinduktion, Entscheidungsbäume und Bayes-Klassifikation als Beispiele genannt werden (Dürr (2004, S.5), Backhaus u. a. (1996, S.162/163) und Nakhaeizadeh u. a. (1998, S.12)). In der Praxis werden Klassifizierungsverfahren hauptsächlich zu Vorhersagen angewendet. Die Spanne reicht dabei vom Versicherungswesen (Bestimmung von Schadensrisken) über Banken (Risiko bei Kreditvergabe) bis zum Marketing (Antwortraten von Direktwerbemaßnahmen) (Schinzer u. Bange (1998, S.54) und Dürr (2004, S.5)).
2.3 Assoziierung
Die Assoziierungsverfahren versuchen Beziehungen zwischen Objekten, meistens in Form von ”Wenn-Dann-Regeln“,durchEntdeckenauffälligerAttributkombinationenzufinden(Agar- wal u. Srikant ([1994], S.[13])). Da ohne Vorgabe eines Zielkriteriums gesucht werden, gehört die Assoziierung zum unüberwachten Lernen (Küppers ([1999], S.[65])). Charakteristisch für Assoziierungsverfahren sind leichte Bedienbarkeit, gute Anschaulichkeit und geringer Implementierungsaufwand (Adriaans u. Zantinge ([1997], S.[63])). Bei der Assoziierung kommen zwei grundlegende Maße zur Anwendung. Der ”Träger“einer Attributmenge gibt an, wie oft die Attribute gemeinsam innerhalb des gesamten Datenbestan- des vorkommen. Die sich auf Assoziationsregeln ”A→B“beziehende ”Konfidenz“kennzeichnet den Anteil von B, der beim Zutreffen von A ebenfalls zutrifft. Durch Vorgabe entsprechend kleiner Träger und Konfidenzen kann gesteuert werden, welche Assoziationen als interessant angesehen werden (Krahl u. a. ([1998], S.[81])). Ohne entsprechende Vorgaben würden belie- big viele Assoziationen gefunden. Die Ergebnisse würden zu umfangreich und unüberschaubar werden. Den richtigen Kompromiß zu finden ist hierbei wichtig. Weiterhin liegen zur Bewer- tung der gefundenen Assoziationsregeln Kriterien vor. Zum Test, wie gut die Regel stimmt, wird die ”Präzision“verwendet,diedenAnteilallerObjektemitdenMerkmalenAundBan allen Objekten mit nur A angibt. Auf welchen Teil der Gesamtdaten sich die Regel stützen kann wird mit Hilfe der Ausbeute, dem Anteil aller Objekte mit den Merkmalen A und B an allen Objekten, bestimmt (Deventer u. van Hoof ([1998], S.[345])). Von hoher praktischer Relevanz bei Assoziierungsverfahren ist die Warenkorbanalyse mit Hilfe derer Geschäfte herausfinden wollen, welche Produktkombinationen gekauft werden. Anhand dieser Informationen können dann fundiertere Entscheidungen bezüglich der Sortimentspolitik oder der Anordnung der Waren im Laden getroffen werden (Bissantz ([1996], S.[29]) und Aggarwal u. Yu ([1999], S.[14]/[15])).
2.4 Neuronale Netze, Fuzzy Theorie und Genetische Algorithmen
2.4.1 Neuronale Netze
Betrachtet man ein menschliches Gehirn, so ist es heutigen Rechnern bei algorithmischen Problemen deutlich unterlegen. Umgekehrt ist es bei heuristischen Problemen. Entscheidend für diese Überlegenheit ist die Vernetzung der Neuronen. Neuronale Netze (NN) verbinden diesen Vorteil mit der hohen Geschwindigkeit digitaler Systeme (Van Hoang (2004, S.10)). Analog zum biologischen Vorbild ist die kleinste Ler- neinheit eines NN ein Neuron, welches eine Verarbei- tungseinheit ist, die dem Eingabe-Verarbeitung-Aus- gabe-Prozeßschema folgt (Kratzer (1993, S.27)). Nachdem ein Neuron eine, durch Gewichte in seiner Intensität bestimmte, Eingabe erhalten hat, modifi- ziert es diese durch eine Transferfunktion und leitet es Abbildung in dieser Leseprobe nicht enthalten Abbildung 2.1: Schema eines Neurons dann an seinen Ausgang weiter. Schematisch ist dies in (Brause (1995, S.107)) Abbildung 2.1 dargestellt (Brause (1995, S.107)). Angeordnet sind die Neuronen in Schichten, wobei je- des Neuron nur mit allen Neuron seiner beiden be- nachbarten Schichten verbunden ist. Die Schicht der Eingabeneuronen nimmt Daten über eine Eingangslei- tung auf, während die Schicht der Ausgabeneuronen die erarbeiteten Informationen über eine Ausgangs- leitung wieder an die Außenwelt abgibt. Dazwischen liegen mehrere versteckte Schichten, die keine Verbin- dung zur Außenwelt haben, wie auch Abbildung 2.2 Abbildung 2.2: Grundstruktur eines NN (Lohre (2001, S.46)) Abbildung in dieser Leseprobe nicht enthalten zu entnehmen ist (Klein u. Schmidt (1995, S.43) und Krause (1993, S.45)). Bei Feed- Forward-Netzen können die Schichten nur in Richtung von der Eingabe- zur Ausgabeschicht durchlaufen werden. Bei Feed-Backward-Netzen können Informationen auch an vorangegan- gene Schichten zurückgegeben werden (Weiss u. Indurkhya (1998, S.126)). NN lassen sich je nach konkreter Realisierung dem überwachten beziehungsweise unüberwach- ten Lernen zuordnen. Überwachtes Lernen liegt vor, wenn für die Trainingsphase Eingabe- und Ausgabemuster vorgegeben werden. Durch die Differenz zwischen gewünschter und erhalte- ner Ausgabe wird ein Fehlersignal erzeugt. Daraus läßt sich eine Lernregel bestimmen, welche zum Beispiel die Gewichte derart modifiziert, daß Fehler vermieden werden. Dieses Lernregel wird in Feed-Forward-Netzen am häufigsten verwendet (Krahl u. a. (1998, S.67)). Wei- tere Lernregeln können Urban (1998, S.72-75) entnommen werden. Beim unüberwachten Lernen dagegen soll das NN selbständig Klassifikationsmuster für die Eingangsmuster durch Ähnlichkeitsvergleich finden und die Gewichte danach ausrichten. Die Neuronen werden hier zu Musterdetektoren (Zimmermann (1995, S.48/49)). Während vor zehn Jahren NN in der Praxis relativ selten angewendet wurden (Schmidt- von Rhein u. Rehkugler (1994, S.502)), hat sich dieses Verfahren inzwischen als ei- ne der meistgenutzten Data Mining-Techniken etabliert (Van Hoang (2004, S.11)). So sind NN überlegen bei der Verarbeitung von lückenhaften oder widersprüchlichen Daten erfolgreich, können nichtlineare Zusammenhänge abbilden und bieten umfangreiche Analy- semöglichkeiten (zum Beispiel Mustererkennung, Ähnlichkeitsanalyse,Klassifikation, u.v.m.) (Küppers (1999, S.55)). Zudem ermöglicht die verteilte Speicherung des Wissens im NN eine parallele Verarbeitung und erhöht die Fehlertoleranz, so daß sogar stark verrauschte In- putsignale verarbeitet werden können (Van Hoang (2004, S.11/12)). Ein weiterer Vorteil ist die gute Anpassungsfähigkeit von NN an die Umwelt (Heuer (1997, S.7)). Nicht verschwiegen werden soll, daß diese große Flexibilität mit sehr aufwendigen und komplizierten Trainingsvorgängen bezahlt wird. Die optimale Konfiguration läßt sich meist nur durch Ausprobieren ermitteln, so daß der Zeitbedarf unbefriedigender Weise nur schwer abschätzbar ist. Zudem sind für den Anwender, wegen der mangelnden Transparenz, Fehler und deren Quellen schwer zu erkennen und die Nachvollziehbarkeit der Ergebnisse und damit die Akzeptanz für den Benutzer verringern sich (Van Hoang (2004, S.11/12)).
2.4.2 Fuzzy Theorie
Die von Zadeh (1965, S.338-352) eingeführte Fuzzy Theorie besagt, daß die reale Welt weitgehend ”fuzzy“ist,daßheißtdiemeistenBegriffe,dieverwendetwerdensindunscharf (vgl. auch Böhme ([1993], S.[1])). Sie wird auch als die Theorie unscharfer Mengen bezeichnet, wodurch ihre Rolle als Verallgemeinerung der klassischen Mengenlehre deutlich wird. Die sonst in der Rechnerwelt vorherrschende strikte Beschränkung auf einen ja- oder nein-Zustand wird in einen graduellen Zugehörigkeitsbegriff umgewandelt (Zimmermann ([1995], S.[17])). Für jedes Element wird über eine Zugehörigkeitsfunktion angegeben, zu welchem Grad es zu einer Menge gehört (Ludwig ([2000], S.[29])).
[...]
- Citation du texte
- Dipl.-Phys. Dipl.-Kfm. Martin Kneip (Auteur), 2005, Data Mining, Munich, GRIN Verlag, https://www.grin.com/document/88653
-
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X.