Gezielte CRM Strategien zur Bestandskundenausschöpfung, Loyalisierung sowie Neukundengewinning im Marketing bedienen sich heutzutage etablierten Methoden des Data Mining bzw Knowledge Discovery in Databases.
Der Autor beschreibt anhand von praktischen Beispielen der Banken- sowie Versicherungsbranche die Möglichkeiten und Einsatzszenarien. Anschaulich werden die Stärken sowie Limitationen von Verfahren beschrieben. Es wird mit dem Irrglauben aufgeräumt, man brauche einfach nur Datenmengen automatisch durch Analysemethoden durchlaufen zu lassen. Notwendige Vorüberlegungen betreffen die Formulierung des Business Problems sowie die adäquate Aufbereitung der Daten.
Es wird zudem das breite Spektrum der unterschiedlichen Methodenansätze zu gerichteten bzw ungerichteten Verfahren vorgestellt und die Algorithmen erläutert.
Eine ausgewogene Mischung aus konzeptionellen Betrachtungen mit praktischem Bezug geben dem Leser einen breiten Überblick mit genug Detailwissen.
Inhaltsverzeichnis
1. Einleitung
1.1. Motivation
1.2. Aufbau der Arbeit
2. Kundenorientierte Marketingbestrebungen
2.1. Kundenpotential
2.2. Kundensegmentierung
2.3. Direct Marketing
2.4. Database Marketing
3. Der Bankenbereich
3.1. Unternehmen
3.2. Das Bankgeschäft
3.3. Bankleistung
3.4. Bankmarketing
3.4.1. Qualitätspolitik
3.4.2. Preispolitik
3.4.2.1. Kreditgeschäft
3.4.2.2. Zahlungsverkehr
3.4.3. Vertriebspolitik
3.4.4. Kommunikationspolitik
3.5. Mögliche Einsatzfelder des Data Mining
4. Knowledge Discovery in Databases (KDD)
4.1. Begriffsdefinition
4.2. Der KDD-Prozeß
4.3. Data Mining
4.3.1. Einordnung des Begriffs
4.3.2. Aufgaben des Data Mining
4.3.3. Auslöser der Entwicklung
4.3.4. Probleme im Vorfeld
4.3.4.1. Datenproblematik
4.3.4.2. Verfahrensproblematik
5. Datengrundlagen
5.1. Informationsniveau
5.1.1. Betrachtung einzelner Merkmale
5.1.2. Betrachtung gemischter Merkmale
5.2. Datencharakteristika
5.2.1. eindimensionale Auswertung
5.2.1.1. Deskriptive Statistik
5.2.1.2. Lageparameter
5.2.1.3. Streuungsparameter
5.2.1.4. Induktive Statistik
5.2.2. Zweidimensionale Auswertung
5.3. Weiterführende Datenbearbeitung
5.3.1. Transformation
5.3.2. Skalierung qualitativer Daten
6. Verfahren
6.1. Modellbildung
6.1.1. Modellformulierung
6.1.2. Modellentstehung
6.1.3. Modellevaluierung
6.1.4. Modellanwendung
6.2. Einteilung in Verfahrensgruppen
6.2.1. Gerichtete Verfahren
6.2.1.1. Darstellung der verschiedenen Verfahrenstypen
6.2.1.2. Vorgehens weise der Verfahren
6.2.1.3. Verfahrensvergleich
6.2.2. Ungerichtete Verfahren
6.2.2.1. kombiniert ungerichtet-gerichtetes Vorgehen
6.3. Statistik
6.3.1. Korrelationsanalyse
6.3.1.1. Kontingenzanalyse
6.3.1.2. Pearsonsche Korrelationsanalyse
6.3.1.3. Multiple Korrelation
6.3.1.4. Kanonische Korrelation
6.3.1.5. Chi-Quadrat-Unabhängigkeitstest
6.3.2. Regression
6.3.2.1. Kategoriale Regression
6.3.2.2. Multikollinearität
6.3.3. Varianzanalyse
6.4. Numerische Taxonomie
6.4.1. Clusteranalyse
6.4.1.1. Unterscheidung der verschiedenen Verfahren
6.4.1.2. Agglomerative Methoden
6.4.1.3. Partionierende Methoden
6.4.1.4. Unscharfe Verfahren
6.4.1.5. Konzeptionelles Clustern
6.4.2. K-Näohste-Naohbarn
6.4.3. Diskriminanzanalyse
6.5. Entscheidungsbäume
6.5.1. Charakteristika und Ablaufschema
6.5.2. AID lüü
6.5.3. CART lül
6.5.3.1. Modellgüte lül
6.5.3.2. Modellerstellung
6.5.3.3. Kostenbetrachtung
6.5.3.4. Pruning
6.5.4. CHAID
6.5.5. FAID
6.5.6. C4.5
6.5.6.1. Der ID 3- Algor it hmus
6.5.6.2. Erweiterungen zum C4.5-Algorithmus
6.6. Neuronale Netze
6.6.1. Einsatzfeld
6.6.2. Überblick über Aufbau und Funktionsweise
6.6.3. Entstehung und Entwicklung
6.6.4. Multi-Layer Perceptron mit Backpropagation
6.6.4.1. MLP-Topologie
6.6.4.2. Backpropagation-Lernregel
6.6.4.3. Genetischer Algorithmus
6.6.5. Radiale Basisfunktionen
6.7. Vektorquantifizierung
6.7.1. Kohonen-SOM
6.7.1.1. Gerichtete SOM
6.7.1.2. Fuzzy-SOM
6.7.2. Lernende Vektorquantifizierung
6.7.2.1. Erweiterte LVQ
7. Beschriebene Anwendungsfälle in der Literatur
7.1. Anwendung von Verfahren
7.1.1. Kundensegmentierung unter Nutzung externer Daten
7.1.2. Kundensegmentierung anhand Fuzzy-Datenanalysen
7.1.3. Marktsegmentierung bei Privatkunden auf der Basis von Einstellungen
7.1.3.1. Gerichtetes Erlernen von Kundenbedürfnissen
7.2. Vergleiche von Verfahren
7.2.1. STATLOG-Studie
7.2.2. Studie von Curram/ Mingers
7.2.3. Vergleiche von Berry/ Linoff
8. Anwendungsbeispiele
8.1. Bank
8.1.1. Die Datenbasis
8.1.2. Selektion
8.1.3. Preprocessing
8.1.4. Data Mining Schritt
8.1.4.1. Diskriminanzanalyse
8.1.4.2. CHAID
8.1.4.3. CART
8.1.4.4. Quest
8.1.4.5. Neuronales Netz
8.1.5. Interpretation
8.1.6. Kohonen-Netz
8.2. Versicherung
8.2.1. Die Datenbasis
8.2.2. Stornoanalyse
8.2.2.1. Bivariate Deskriptive Statistik
8.2.2.2. Diskriminanzanalyse
8.2.2.3. CHAID
8.2.2.4. CART
8.2.2.5. Neuronales Netz
8.2.2.6. Interpretation
8.2.2.7. Kohonen-Netz
8.2.3. Cross Selling
8.3. Bausparen
8.3.1. Die Datenbasis
8.3.2. Selektion
8.3.3. Preprocessing
8.3.4. Data Mining Schritt
8.3.4.1. Bivariate deskriptive Statistik
8.3.4.2. CHAID
8.3.4.3. Diskriminanzanalyse
8.3.4.4. Neuronales Netz
8.3.5. Interpretation
9. Darstellung der verwendeten Software
9.1. Statistik
9.1.1. SPSS
9.2. Entscheidungsbäume
9.2.1. CHAID
9.2.2. AnswerTree
9.2.3. Scenario
9.3. Neuronale Netze
9.3.1. SENN
9.3.2. SphinxVision
10. Kritische Würdigung
11. Danksagung
A. Verzeichnis der Bezeichnungen
B. Erfahrungen und Erfolge der Praxis
B. l. Gründe für den Erfolg
B. 2. Erfolge aufgrund gezielter Datenanalyse
C. Ergänzende Angaben zu der Financial Services Branche
C. l. Die internationale Bankenlandschaft
C. 2. Die internationale Versicherungslandschaft
D. Maschinelles Lernen
D. l. Unterscheidung der Lernstrategien
D. 2. Art der Wissensrepräsentation
D.3. Induktives Lernen
D. 4. Klassifizierung der Lernverfahren
E. Vertiefende Ausführungen zu ausgewählten Data Mining Verfahren
E. l. Bezeichnungen für (un)gerichtetes Lernen
E. 2. Bezeichnung der Merkmalsarten
E.3. Vergleich der Begriffe aus verschiedenen Forschungsrichtungen
F. Ergebnistabellen der Auswertung des Versicherungsfalles
G. Abbildungen
G.l. Konsumentenverhalten und Marktforschung
G. 2. Konzeptioneller Cluster/S Algorithmus
H. Beweise
H. l. Vektorquantifizierung
H.2. Lernende Vektorquantifizierung
Abbildungsverzeichnis
3.1. Marktaufteilung der Universalbanken
4.1. Ablaufdarstellung des KDD-Prozesses
5.1. Umwandlung unterschiedlicher Datenniveaus
6.1. Abfolge von Analyse- und Anwendungsphase
6.2. Phasen der Modellbildung
6.3. Aufteilung der Datenmengen
6.4. Fehlerrate während der Lernphase
6.5. Zwei Zweidimensionale Zweiklassenbeispiele
6.6. Klassifikation durch binären Entscheidungsbaum
6.7. Darstellung eines Entscheidungsbaums
6.8. Klassifikation durch lineare Diskriminanzanalyse
6.9. Klassifikation durch Neuronales Netz
6.10. Mangelnde Sensibilität der Entscheidungsbaumverfahren
6.11. Darstellung des gerichteten Lernens
6.12. Darstellung des ungerichteten Lernens
6.13. Übersicht der Clustermethoden
6.14. Überblick der Proximitätsmaße
6.15. Aufbau eines Neurons
6.16. Legende zu Neurondarstellungen
6.17. Topologie eines MLP
6.18. Topologie statistischer Modelle
6.19. Topologie einer SOM
7.1. Ergebnisbaum der CH AID-Analyse
8.1. CART-CutOff Performance auf Testmenge
8.2. Quest-CutOff Performance auf Testmenge
8.3. Darstellung der heterogenen Zielgruppe durch ein Kohonen-Netzwerk
8.4. Stornosensitivität der KFZ-Prämie
8.5. Stornosensitivität der KW-Klasse
8.6. Darstellung der Stornokunden durch ein Kohonen-Netz
8.7. Darstellung der heterogenen Zielgruppe
9.1. Vergleich des Speicherbedarfs verschiedener Dateiformate
G.l. SOR-Modell des individuellen Kaufverhaltens
G.2. Begriffserläuterungen beim Cluster/S 242/
Tabellenverzeichnis
3.1. Die zehn größten Banken Deutschlands
3.2. Anzahl der Bankfilialen
3.3. Passivstruktur der Bilanz ausgewählter Bankengruppen
3.4. Aktivstruktur der Bilanz ausgewählter Bankengruppen
4.1. Aufgaben des Data Mining
5.1. Darstellung unterschiedlicher Merkmale und Skalen
5.2. Darstellung unterschiedlicher Kardinalskalen
6.1. Ausgewählte Beispiele der Modellrepräsentation
6.2. Einteilung in Verfahrensgruppen
6.3. Unterteilung der Verfahren in parametrische und nicht-parametrische ...
6.4. Vergleichskriterien zur Verfahrensbeurteilung
6.5. Klassifikationszuordnungstabelle
6.6. struktur-prüfende multivariate Verfahren
6.7. Arten der Korrelations- und Kontingenzanalyse
6.8. Kontingenztafel eines 3- und eines 2-dimensionalen Merkmals
6.9. Varianten der Varianzanalyse
6.10. Charakterisierung agglomerativer Clusterverfahren
6.11. Vergleich der Konzepte zur Klassifizierung
6.12. Übersicht der Entscheidungsbaumverfahren
6.13. Abhängigkeit der Fehlerraten von der Anzahl der Blätter
6.14. Typen Neuronaler Netze
6.15. geschichtliche Entwicklung Neuronaler Netzmodelle
6.16. lineare und nichtlineare Aktivierungsfunktionen
7.1. Übersicht der beispielhaften Anwendungsfälle
7.2. Ergebnisse im 15-Cluster-Fall
7.3. Beurteilung der Segmentierungskriterien
7.4. Durch Clusteranalyse segmentierte Kundengruppen
7.5. Vergleich Produktnutzungen bzgl. Kundengruppen
7.6. Vergleich Produktnutzungen bzgl. Altersgruppen
7.7. Zusammenfassende Darstellung der Cluster
7.8. STATL O G- Met ho denvergleich
7.9. Data-Mining-Anwendungen
7.10. Beurteilung Data Mining Verfahren
8.1. Überblick der eigenen Anwendungen
8.2. Umfang der Datenbasis
8.3. Aufstellung der analysierten Merkmale
8.4. Korrelations.- Regressions- und Diskriminanzkoeffizienten
8.5. Trefferquoten abhängig von minimaler Segmentgröße
8.6. CHAID-CutOff Performance auf Testmenge
8.7. Merkmalsgewichtung der Entscheidungsbäume
8.8. CART-CutOff Performance auf Testmenge
8.9. Qucst-CutOff Performance auf Testmenge
8.10. Sensitivitätsanalyse des Neuronalen Netzes
8.11. Vergleich der Kaufwahrscheinlichkeiten für die Testmenge
8.12. Merkmalsübersicht
8.13. Kontingenzkoeffizienten ausgewählter Merkmale
8.14. Korrelationskoeffizienten ausgewählter Merkmale
8.15. Trefferquoten der Diskriminanzanalyse unter Verwendung der Klassifizierungsfunktionen
8.16. Trefferquoten der Diskriminanzanalyse unter Verwendung des Wahrsehcin- lichkcitskonzcptcs
8.17. Box-Test auf Gleichheit der Kovarianz-Matrizen bei Methode ZUSAMMEN
8.18. Box-Test auf Gleichheit der Kovarianz-Matrizen bei Methode SCHRITTWEISE
8.19. Stornoquoten und -anteile bzgl. unterschiedlicher Cut Offs
8.20. Analyse der optimalen Endknotengröße beim Chaid-Training
8.21. Analyse der optimalen Endknotengröße beim Chaid-Test
8.22. Analyse der optimalen Endknotengröße beim CART-Test
8.23. Analyse der optimalen Endknotengröße beim Quest-Test
8.24. Ergebnisse der Sensitivitätsanalyse des Neuronalen Netzes
8.25. Ermittlung der optimalen Einsatzmenge
8.26. Vergleich der Stornowahrscheinlichkeiten
8.27. Korrelations.- Regressions- und Diskriminanzkoeffizienten
8.28. Erfolg von Cross-Selling-Potential
8.29. Merkmalsgewichtung von Bausparverträgen
8.30. Vergleich der Kaufwahrscheinlichkeiten von Bausparverträgen
9.1. Vergleichskriterien der verwendeten Software
C.l. Die zehn größten Banken der Welt
C.2. Die zehn größten Banken Europas
C.3. Die weltgrößten Fusionen in der Bankenbranche
C.4. Performance nach Risikokosten und Aufwand/Ertrag-Relation
C.5. Die neun größten Versicherungen Europas
C.6. Die neun größten Versicherungen Deutschlands
E.l. Funktionen des Data Mining
E.2. Merkmalsbezeichnungen
E. 3. Begriffe der Künstlichen Intelligenz und Statistik
F. l. Abweichungsanalyse der optimalen Endknotengröße beim Chaid-Training
F.2. Abweichungsanalyse der optimalen Endknotengröße beim Chaid-Test . . .
F.3. Analyse der optimalen Endknotengröße beim CART-Training
F.4. Abweichungsanalyse der optimalen Endknotengröße beim CART-Training
F.5. Abweichungsanalyse der optimalen Endknotengröße beim CART-Test . .
1. Einleitung
1.1. Motivation
Die vorliegende Arbeit beleuchtet mögliche Anwendungsfelder des Data Mining in der Finanzbranche, stellt einige gängige Methoden aus unterschiedlichen Forschungsbereichen vor, beschreibt bei welchen Problemstellungen sie zum Einsatz gelangen und zeigt exemplarisch die Vorgehensweise an Beispielen.
Die Branche der Banken und Versicherungen, die in Europa als eine der wenigen Wirtschaftszweige von kontinuierlichem Wachstum und steigenden Gewinnen geprägt war, befindet sich momentan in einem strukturellen Anpassungsprozeß. Dieser spiegelt sich in Unternehmensübernahmen bzw. -fusionen oder Konzentrationsbestrebungen wieder. Die einhergehenden Rationalisierungen haben das Ziel, die Erfolgsquoten zu erhöhen und Kosten zu senken. Sie müssen unter anderem auf der Marketingseite durch eine bessere Nutzung der vorhandenen und Erschließung neuer Kundenpotentiale erreicht werden. Den Schlüssel dazu bieten neue Informationstechnologien und Methoden wie das Data Mining.
Der Begriff des Data Mining ist erst in den 90er Jahren entstanden. Unter diesem Titel werden gemeinsam Verfahren diskutiert und verglichen, die jedoch schon seit langem in unterschiedlichen Wissenschaftsbereichen existieren. Dazu gehören die drei Gebiete Statistik, Maschinelles Lernen (siehe Kapitel D) und Datenbanktechnologien. [Fay, S.23f] Die Zusammenführung unter einer zentralen Bezeichnung erleichtert die Entstehung einheitlicher Begriffsbestimmungen und Vorgehensweisen. Durch situationsspezifische Selektion wird somit eine adäquate Behandlung der diversen Aufgabenstellungen ermöglicht. Als Alternative des Schlagwortes Data Mining verwendet man auch die Begriffe Datenanalyse oder Datenmustererkennung1.
1.2. Aufbau der Arbeit
Das Kapitel 2 behandelt allgemeine Ansätze, wie man Potentiale im Kundenstamm einer Unternehmung erschließt oder neue schafft. Dabei werden einige angrenzende Themengebiete angesprochen, die den Einsatz von Data Mining Methoden im Marketing nach sich ziehen.
In Kapitel 3 wird speziell auf den Bankenbereich Bezug genommen. Dabei ist einerseits das Bankengeschäft vorzustellen, um zu erläutern in welchen Sparten sich eine Bank im Finanzsektor betätigt. Andererseits stellt man dar. welche Mittel dem Bankmarketing zur Verfügung stehen. Abschließend wird beleuchtet, in welchen Geschäftsfeldern der Einsatz des Data Mining am sinnvollsten erscheint, welche typischen Aufgabenstellungen existieren und inwieweit schon diese Methoden in Verwendung sind.
Das folgende Kapitel 4 ordnet den Begriff Data Mining in den Bereich Knowledge Discovery in Databases (KDD) ein. Dabei werden die geschichtliche Entwicklung, die beeinflussenden Forschungsbereiche und der ablaufende Analyseprozeß angesprochen. Zudem werden wesentliche Begriffe definiert, und es findet eine Einteilung in die wichtigsten Analyseziele bzgl. des Kontextes der Arbeit statt.
In Kapitel 5 werden die Eigenschaften und Beschreibungsmögiichkeiten der Datenbasis behandelt. Inhalt sind ebenfalls die nötigen Vorverarbeitungsschritte.
Der Kern der Arbeit ist das Kapitel 6. in dem eine Einteilung der Methoden in Bezug auf die Untersuchungsziele stattfindet und eine Analyse der Stärken und Schwächen anhand eines Kriterienkatalogs durchgeführt wird. Danach werden die einzelnen Verfahren aus den verschiedenen Forschungsbereichen vorgestellt.
Es folgt das Kapitel 8 mit Anwendungsbeispielen, an denen die Vorgehensweise anhand von Beispielen nachvollzogen werden kann. Sie dienen als mögliche Vorgehensweise für ähnliche Problemstellungen. Hauptziel ist allerdings der Verfahrensvergieich bzgl. einiger ausgewählter Kriterien.
Das Kapitel 9 bietet einen Überblick über die in dieser Analyse verwendete Software. Sie wird in Ihrem Leistungsumfang dargestellt und ein Stärken-Schwächen-Vergleich durchgeführt.
Die kritische Würdigung in Kapitel 10 rekapituliert die wesentlichen Aspekte beim Einsatz von Data Mining und geht auf den Nutzen ein. nennt aber auch die Gefahren, die mit seiner Anwendung verbunden sind.
2. Kundenorientierte Marketingbestrebungen
Im folgenden Abschnitt sollen die Begriffe Kundenpotential und Kundensegmentierung sowie Direct und Database Marketing, die den Einsatz des Data Mining im Marketing begründen, näher erläutert und die Zusammenhänge untereinander veranschaulicht werden. Die eigentliche Analyse wird im Data Mining durchgeführt, jedoch findet sie aufgrund verschiedener Untersuchungsziele statt bzw. wird sie in unterschiedliche Prozesse eingebunden. Im Anhang В sind dazu einige unterstützende Aussagen für die gezielte Datenanalyse aufgeführt.
2.1. Kundenpotential
Die Kundenpotentialanalyse ist bestrebt vorhandene Potentiale aufzudecken bzw. neue zu erschließen. Die Begrifflichkeiten Markt- und Absatzpotential beschreiben eher markt- bzw. unternehmensbezogene Gesichtspunkte. Hüttner [Hü82] definiert sie als „die Gesamtheit möglicher Absatzmengen eines Marktes für ein bestimmtes Produkt“ und „Anteil am Marktpotential, den das Unternehmen maximal erreichen zu können glaubt.“ „Der Begriff Kundenpotential sollte daher generell als kundenspezifische Chancen bzw. Risiken verstanden und der Begriff Kundenpotentialanalyse als die Identifikation und Bewertung von gegenwärtigen bzw. zukünftigen Kundenchancen und -risiken definiert werden.“ Er „... wird im Zusammenhang mit den potentiellen Kunden, der Entwicklung des zukünftigen Kundenstamms, den Abschluß von zusätzlichen Geschäften bzw. der Wertigkeit von Kundenbeziehungen verwendet.“ [Sch95, S.18. 20]
Potentielle Kunden Bei der Erklärung dieses Begriffs wird eine Parallele zum Einzelhandel gezogen. „Je breiter und tiefer ein Sortiment im Handel ist. desto mehr potentielle Kunden werden angesprochen.“ [Sch95] Die Angebotspalette bestimmt damit, welche Interessenten von dem Unternehmen Leistungen beziehen könnten und somit den Kreis, bei dem eine Kontaktaufnahme sinnvoll erscheint.
Entwicklung des zukünftigen Kundenstamms Dem Zeitaspekt muß wegen der demographischen Entwicklung der Kunden Rechnung getragen werden. In den verschiedenen Lebensabschnitten macht nur eine Auswahl von Finanzprodukten Sinn. Zum 18. Geburtstag ist z.B. das Angebot einer KFZ-Versicherung interessant. Jugendliche um die 20 sind weiterhin Adressaten von Bausparverträgen und Altervorsorgeprodukten. Mit etwa 25 oder 30 Jahren rücken Hausrats-, Lebensversicherungen und Sparpläne in das Blickfeld. Im Alter von ca. 40 benötigt man Berater für das Vermögensmanagement und ab 60 kümmert man sich um die Wiederanlage von auslaufenden Lebensversicherungen oder Rentensparplänen. Die genannten Zeitpunkte sind individuell verschieden, weil berufliche Werdegänge. Bildungs- und Einkommensniveau. Risikobereitschaft und Aufgeschlossenheit sowie Kenntnis im Bereich der Finanzprodukte variieren. Auch die Betrachtung von dritten Personen. wie z.B. Partner. Kinder oder Eltern, ist hilfreich. So läßt sich vielleicht abschätzen, wann und in welcher Höhe eine Erbschaft eintritt.
Abschluß von zusätzlichen Geschäften Bei diesem sogenannten Cross Selling wird die Kundenbeziehung durch Verkauf weiterer Produkte ausgeweitet.
Die relative Häufigkeit das Produkt В zu besitzen, wenn man Kunde von Produkt A ist. wird mit p(b\a) bezeichnet. Ermittelt man einen hohen Wert, könnte man postulieren, daß die Kaufwahrscheinlichkeit P(B\A) von В bei den Kunden, die nur A in Anspruch genommen haben, ebenfalls groß ist. Diese Kunden werden mit einem konkreten Angebot von В kontaktiert.
Zu berücksichtigen ist. daß die Sättigungsgrenze vermutlich unter 100% liegen wird, so daß selbst bei großem P(B\A) ein geringer Erfolg resultieren kann. So weiß das Unternehmen beispielsweise nicht, ob der Kunde das Produkt В bereits bei der Konkurrenz bezogen hat. Andererseits kann P(B\A) trotz niedriger Häufigkeit groß genug sein. So wurde das Produkt В vielleicht bisher nicht gekauft, weil es sehr erklärungsbedürftig, erst seit kurzem verfügbar ist oder nicht ausreichend beworben wurde.
Wertigkeit einer Kundenbeziehung Hierbei ermittelt die Kundenpotentialanalyse „für einen gegebenen abgeschlossenen Zeitraum oder auch für künftige Perioden, welche Wertigkeit Kunden für das eigene Produkt- und Dicnstlcistungsprogramm oder auch für bisher nicht selbst angebotene Produkte und Programme haben.“Bei aktiven Kunden kann sich daran z.B. die Entscheidung über das Serviceniveau orientieren. Sie dient ebenfalls als Grundlage ganzer Kundcnbindungs- oder - reaktivierungsstrategien.
2.2. Kundensegmentierung
Man kann die Kundenpotentialanalyse auf individuellem Niveau führen oder die Kunden (Objekte) durch Segmentierung zu wenigen Gruppen zusammenfassen. Unter Segmentierung versteht man einen Prozeß der Aufteilung eines heterogenen Gesamtmarktes in homogene Teilmärkte, die aus Personen mit sehr ähnlichem Konsumverhalten bestehen. Für die Kunden- und Segmentbeschreibung stehen soziodemographische. Kaufverhaltens- oder psychographische Daten als Kriterien zur Verfügung. Der Kriterienbewertungskatalog von Schulz ist folgendermaßen gegliedert. [Sch95. S.26ff]
Relevanz Die Merkmale (Variablen) sollten auf Indikatoren basieren, die zeitlich stabil sind (Indikatorstabilität) und die zwischen dem Kaufverhalten und den Merkmalen einen direkten Zusammenhang aufweisen (Indikatorstärke). Die Segmente müssen in sich homogen und zueinander heterogen sein. Eine darstellbare Abgrenzbar- keit der Segmente liegt im Allgemeinen nur vor, wenn es sich um lineare Zusammenhänge handelt. Aber auch die Verfahrenswahl entscheidet über Segmentoder Individualbetrachtung. So sind z.B. Entscheidungsbäume im Abschnitt 6.5 typische Methoden, die auf Segmenten basieren, während Neuronale Netze des Abschnitts 6.6 den einzelnen Kunden betrachten.
Meßbarkeit(Operationalität) Die Analyse wird von der Informationsbasis sowie der Verarbeitung beeinflußt. Datenqualität und -umfang sind Grundlage einer erfolgreichen Verarbeitung. Fehlende (missing values) oder nicht vollständige Daten können selbst durch gute Verfahren nicht ausgeglichen werden. Das Skalenniveau legt fest, welches Verfahren überhaupt zum Einsatz kommen kann.
Ansprache Die Zugänglichkeit der Segmente sollte gegeben sein. Sie wird in der Regel durch die Kundenadressen gewährleistet.
Wirtschaftlichkeit Nicht nur die Wahrscheinlichkeit (z.B. Kauf oder Storno eines Produktes) in einem Segment, sondern auch dessen Größe beeinflussen seine Wirtschaftlichkeit. Diese kann Grundlage eines Ranking sein, um den Umfang eines Mailings festzulegen. Auf der Kostenseite schlagen die Analyse und die Kundenbearbeitung zu Buche. Der Nutzen resultiert aus geringeren Streuverlusten und höheren Responseraten.
2.3. Direct Marketing
Während Marketing aus dem Mix von Kommunikations-, Distributions-, Preis- und Produktpolitik besteht, ist die hier zu behandelnde direkte Kundenansprache eher in den ersten beiden Bereichen (Informationsaustausch, Leistungsüberbringung) anzusiedeln. „Im Direct Marketing handelt es sich zwangsläufig in erster Linie um direkte Kommunikation, die durch gezielte Kontaktaufnahme und Individualität der Kommunikationsbeziehung gekennzeichnet ist.“ [Dal97a] Die Anonymität einer Zielgruppe wird aufgehoben und ein potentieller Kunde direkt angesprochen. Dies kann in Form eines Mailings(Post, email) oder per Telefon geschehen. Im Gegensatz zur Massenkommunikation wird die Rückkopplung durch den Empfänger angestrebt. Somit zählt man auch Massenmedien zur direkten Kommunikation, wenn Response-Möglichkeiten vorgesehen sind.Ein Direktvertrieb liegt vor, wenn der Produzent unmittelbar an den Kunden absetzt. Die Leistung geht dem Käufer zu und somit ist seine Lokation Ort des Verkaufs. Man bestellt auf Distanz entweder von einem Vertreter oder im Versandhandel. Die Versicherungen sind mit ihrem Außenvertrieb den Filialbanken in dieser Hinsicht voraus.
Fusionen zwischen diesen Branchen sollen dieses Potential für beide nutzbar machen können. Zudem ähneln die Direktbanken oder das Telefonbanking dem Versandhandel, bei dem der Kontakt nicht persönlich, sondern über Medien erfolgt.
2.4. Database Marketing
Während Direct Marketing eher als eine Philosophie oder Marketingstrategie zu bezeichnen ist. ist das Database Marketing als Voraussetzung dafür anzusehen. Wenn man jemanden direkt ansprechen will, muß man nicht nur seine Adresse kennen, sondern auch wissen, um wen es sich handelt. Das Database Marketing gewährleistet die operative Umsetzung der direkten Ansprache.* *Der Trend vom Massenmarketing zum Individualmarketing manifestiert sich in zwei Entwicklungsrichtungen. Einerseits geht man zu einer zunehmenden Individualisierung der Produkte (Customized Marketing) über. Auf der anderen Seite versucht man individuelle Geschäftsbedingungen (Relationship Marketing) aufzubauen.
Beim Customized Marketing liegt der Schwerpunkt bei der Produkt- und Preispolitik. Produkte und Dienstleistungen sollen durch Zusammenarbeit stärker an die Wünsche des Kunden angepaßt werden. Der gesamte Verkaufsprozeß wird durch Computer Aided Selling (CAS) Systeme unterstützt. Dieses bietet dem Kunden die Möglichkeit, im Verkaufsgespräch nicht nur Präsentationen. Abbildungen. Wirtschaftlichkeitsberechnungen und Finanzierungsangebote für verschiedene Produktalternativen zu erhalten, sondern sich sogar an der Konstruktion zu beteiligen.
Das Relationship Marketing nutzt eher die Kommunikations- und Distributionspolitik, um rentable Kunden zu eruieren und mit ihnen eine langfristige Beziehung aufzubauen. Hier tritt schon bei der Analyse das Database Marketing (DBM) ins Rampenlicht und wirkt unterstützend beim anschließenden Direct Marketing. „Database Marketing ist ein Regelkreis, in dessen Zentrum die Database (EDV-System) steht.“Der Entscheidungsfindungs- und Lernprozeß findet in 5 Schritten statt. Durch die Analyse der Kundendaten werden Zielsetzungen und -gruppen definiert. Eine Marketingstrategie mit einem evtl, mehrstufigen Aktionsplan wird entwickelt. Daraufhin werden Aktionen im Alt- oder Neukundenkreis durchgeführt, die verstärkt im Direct Marketing Bereich anzusiedeln sind. Die Reaktionen (Bestellung. Angebots- oder Infomationsanfrage, keine Rückmeldung nach festgelegter Frist) werden erfaßt und im System gespeichert. Nach erfolgter Kontrolle und Auswertung beginnt man den Regelkreis mit nun hoffentlich höherem Informationsniveau von neuem.
3. Der Bankenbereich
Das Kapitel beschreibt die Bankenlandschaft in Deutschland und erläutert in welche Sparten sich das Bankgeschäft aufteilt. Im weiteren werden die besonderen Aspekte der Bankdienstleistung und die Mittel des Bankmarketing vorgestellt. Abschließend erörtert man Einsatzgebiete und Fragestellungen, für die die Verwendung des Data Mining in Frage kommt.
3.1. Unternehmen
In Deutschland arbeiten 3% der Beschäftigten im Banken- und Versicherungssektor. [Pet98. S.16] Es existiert ein Universalbankensystem, das sich vor allem in die Kreditbanken bzw. private Institute. Sparkassen und Kreditgenossenschaften unterteilt, wobei die Aktivitäten der beiden letzten durch ihre Zentralinstitute unterstützt und gebündelt werden. „Daneben gibt es die Spezialbanken, die nur ganz bestimmte Geschäfte ausüben. z.B. Teilzahlungsbanken. Realkreditinstitute und Kreditinstitute mit Sonderaufgaben.“Nach der geographischen Orientierung erfolgt eine Aufteilung in überregionale und regional tätige Institute. Während z.B. Groß.- Landesbanken und die DG-Bank weltweit agieren, sind Regional-, Genossenschaftsbanken, Privatbankiers und Sparkassen in der Region ihres Sitzes tätig. Neben der Menge der Präsenzbanken mit Filialsystem sind Direktbanken entstanden, die schwerpunktmäßig auf die Telekommunikation setzen. Die in Deutschland tätigen Unternehmen sind in der Tabelle 3.1. die der Welt und Europas in C.l und C.2 aufgeführt.
Die Anzahl der Institute war in den letzten Jahren rückläufig. Tabelle 3.2 zeigt besonders die Konzentrationen im Genossenschaftswesen.
Motive für Fusionen können Wachstum (economies of scale), Synergieeffekte. Marktanteile. Diversifikation, Branchengewicht. Einflußmöglichkeiten und die Europäisierung bzw. Globalisierung der Märkte sein.Unter den Genossenschaften diente dieses Mittel manchmal auch der Krisenbewältigung.
Das Geschäftsvolumen ganz Deutschlands hat sich in den letzten zehn Jahren bis 1997
Abbildung in dieser Leseprobe nicht enthalten
Tabelle З.1.: Die zehn größten Banken Deutschlands (Quelle: [Mie98])
Unter den Banken wurden Deutsche Bank. Hypovereinsbank. Dresdner Bank. Bankgesellschaft Berlin. West.LB. Commerzbank. BayerisclieLB. Baden-Württembergische Bank. Deutsche Genossenschafts Bank und die Kreditanstalt für Wiederaulbau betrachtet. BiSu: Bilanzsumme. Kap: Kapitalisierung gemäß [Mic98], JU: Jahresüberschuß in Mio.DM. Die Landesgirokasse ist bei der Baden-Württembergischen Bank nicht mit berücksichtigt.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 3.2.: Anzahl der Bankfilialen (Quelle: [Mic98, S.10])
auf 8.515 Mrd. DM mehr als verdoppelt. Die Abbildung 3.1 gibt nur einen Überblick des Universalbankenmarktes.
Größere Unterschiede als bei den Marktanteilen ergeben sich bei der Betrachtung der Geschäftsstrukturen. Tabelle 3.3 zeigt, daß sich die privaten Banken zu gleichen Anteilen bei anderen Banken und ihren Kunden refinanzieren. Daraus resultieren hohe Geldbeschaffungskosten, denn besonders die Verbindlichkeiten gegenüber Banken sind relativ teuer. Jedoch auch die Kosten auf der Kundenseite liegen laut Tabelle 3.4 über dem Durchschnitt, weil die höherverzinslichen Termineinlagen überproportional vertreten sind. In Zeiten hoher Zinsen wirkt sich dieser Nachteil noch stärker aus. Einer solchen Entwicklung sind die Mitbewerber nicht so stark ausgesetzt, weil sich die Zinsen für Spareinlagen dabei kaum bewegen. Gerade hier verzeichnen sie aber ihr größtes Refinanzierungspotential. das im breiten Privatkundengeschäft begründet liegt. Diese Quelle wird jedoch mit hohen Vertriebskosten aufgrund einer Vielzahl von Geschäftsstellen erkauft.
Die Verwerfungen auf der Aktivseite der Bilanz sind laut Darstellung 3.4 nicht ganz so stark ausgeprägt. Die Privaten haben eine bedeutende Stellung im Firmenkundengeschäft. aber insgesamt haben die Kunden bei allen Instituten einen ähnlichen Anteil am Forderungsbestand. Parallel zur Passivseite treten die Privatbanken auch überproportional als Gläubiger gegenüber anderen Banken und Sparkassen auf. Dafür
Abbildung in dieser Leseprobe nicht enthalten
Abbildung З.1.: Marktaufteilung der Universalbanken (Quelle: Deutsche Bundesbank)
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 3.3.: Passivstruktur der Bilanz ausgewählter Bankengruppen (Quelle: Deutsche Bundesbank)
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 3.4.: Aktivstruktur der Bilanz ausgewählter Bankengruppen (Quelle: Deutsche Bundesbank)
haben letztere ein höheres Wertpapiervolumen, das aus den übermäßigen Kundeneinlagen resultiert, die nicht alle ins Kreditgeschäft fließen.
Die Vermögenssituation hat natürlich unmittelbaren Einfluß auf die Ertragslage. Die Zinsspanne, als Differenz zwischen Aktiv- und Passivzins, liegt bei den Sparkassen und Genossenschaften, basierend auf den oben erfolgten Erläuterungen, naturgemäß höher als bei den Banken. Diese sind darauf angewiesen, diesen Nachteil durch eine Forcierung des Provisionsgeschäftes zu nivellieren.
3.2. Das Bankgeschäft
Im Bankenbereich wird das Geschäft vor allem im Privat- und Firmensektor, im Unternehmensbereich und Investment Banking betrieben.0 Jeder Sektor unterteilt sich wiederum in den Passiv- und den Aktivbereich. Während der Passivbereich der Refinanzierung des Finanzinstitutes dient, sind im Aktivbereich die Ausleihungen an Kunden angesiedelt. Klassische Beispiele sind zum einen der Spar- sowie Anlagenbereich und zum anderen Kredite und Darlehen. Im Kapitel 8.3 wird etwas näher auf einzelne Dienstleistungen eingegangen.
Der erfolgreiche Einsatz von Data Mining ist vor allem im Massengeschäft und somit im Privatkundensektor zu erwarten. Dort ist die Bindung zum Kunden und das Wissen über ihn durch fehlenden oder seltenen Kontakt mit Bankberatern nicht gegeben. Diesen Nachteil versucht man nun durch die Analyse der vorhandenen Datenbankinformationen auszugleichen. Das vorhandene Potential ist dabei in der Regel unerwartet groß.
3.3. Bankleistung
Die Betrachtungen werden einerseits aus Anbieter- und andererseits aus Nachfragersicht angestellt. Aus Bankensicht sind folgende vier Merkmale für das Geschäft bestimmend:
Abstraktheit Wie bei Dienstleistungen üblich, sind auch die Angebote einer Bank abstrakt.
Geld Das Objekt der Dienstleistung ist kein Produkt, sondern die Wertgröße Geld. In den seltensten Fällen sind Münzen und Noten im Spiel, sondern in der Regel handelt es sich um eine virtuelle Verrechnung von Zahlen.
Vertragsformen Die Abstraktheit erfordert eine Gestaltung der Leistungen in Form von Allgemeinen Geschäftsbedingungen und individuellen Verträgen.
Zeitbeziehung Die Interaktionen mit einem Kreditinstitut sind im allgemeinen keine einmaligen Handlungen, sondern begründen eher eine Geschäftsbeziehung über eine längeren Zeitraum.
Aus Kundensicht ergeben sich folgende Besonderheiten im Umgang mit Bankleistungen:
Erklärungsbedarf Die Kombination von Abstraktheit und Vertragsgestaltung erfordert oft ein hohes Maß an Erklärungen. Zusätzlich erschwerend wirkt dabei der lange Zeithorizont und die Berücksichtigung verschiedener, unsicherer Szenarien.
Vertrauensempfindlichkeit Kaum ein Gut verlangt mehr Sensibilität als Geld. Häufig geht man lange Verpflichtungen ein oder möchte weitsichtige Absicherungsmaßnahmen für unvorhersehbare Ereignisse treffen. In solchen Situationen will sich der Kunde auf die Reserven verlassen können.
3.4. Bankmarketing
3.4.1. Qualitätspolitik
Im Dienstleistungssektor verwendet man anstelle des Wortes Produktpolitik eher den Begriff Qualitätspolitik. Hierunter versteht man einerseits die Positionierung durch das Angebotssortiment, aber andererseits auch die Maßstäbe an die Abwicklung der Geschäfte.
Die Qualität des Bankenbetriebs setzt sich aus vier Komponenten zusammen: [Sch97, S.211]
Produkt Die Kunden verlangen Transparenz bei Gebühren und Konditionen. In der Realität werden Unübersichtlichkeit bis hin zur Verschleierung beklagt. Zudem sollen Veränderungen zu Gunsten des Kunden mindestens genauso schnell vollzogen werden, wie die zu seinen Ungunsten.
Abwicklung Hierunter versteht man die technischen Bausteine sowie die termingerechte und fehlerlose Durchführung der Bankleistung.
Beratung Der Kunde erwartet eine objektive Betreuung durch den Geschäftspartner. Dazu gehören auch alternative Angebote über die Produktpalette der Bank hinaus.
Service Damit handelt es sich um die Basiskomponente, die die Grundlage für die erfolgreiche Realisierung der eben genannten Anforderungen bildet. Die Bedeutung des Service als strategischer Wettbewerbsfaktor verdeutlichen die vier Punkte:
Differenzierungsmöglichkeiten Durch Standardisierungen aufgrund geforderter Transparenz und den Gegebenheiten des Geschäftes, ähneln sich viele Merkmale im Leistungsspektrum. Der Service ist manchmal die einzige Möglichkeit, sich von den Mitanbietern abzuheben.
High Touch Hochtechnologien und komplexe Systeme begründen die Forderung seitens des Kunden nach einer großen Ausfallsicherheit. Die Bank führt nicht unbedingt die technische Umsetzung durch, jedoch obliegt ihr die Verantwortung.
Kundenerwartungen Die Anforderungen haben sich durch eine Kundenemanzipation in letzter Zeit deutlich erhöht. Aufgrund eines höheren Informationsniveaus, Bildungsstandes und einer kritischeren Haltung ist der Kunde nicht mehr gewillt, Mängel im Service einfach hinzunehmen.
Gründe für Bankwechsel Eine Umfrage des Wirtschaftsmagazins Capital 1995 hat ergeben, daß auch der Stellenwert des Service angestiegen ist und die Kunden dementsprechend bei Nichterfüllung der Erwartungen Konsequenzen ziehen. Wegen Unzufriedenheit haben 34% die Bankverbindung noch nie, 38% einmal und 28% mehr als zweimal gewechselt. Als Gründe wurden nach dem schlechten Service, hohe Gebühren und Unfreundlichkeit genannt.
Die Bemühungen gipfeln sogar in Servicegarantien, die bei Nichterfüllung durch Entschädigungen gewürdigt werden.
3.4.2. Preispolitik
Anhand des Kreditgeschäfts und des Zahlungsverkehrs werden zwei Möglichkeiten der Preisgestaltung dargelegt. Auf die Entwicklung im Wertpapier geschärt, durch sogenannte Discount-Broker, die eine beratungsarme, aber kostengünstigere Leistung anbieten, sei nur kurz verwiesen.1
3.4.2.1. Kreditgeschäft
Die Krediterlöse im Firmenkundengeschäft werden durch den ausgehandelten Gesamtpreisnachlaß reduziert, der deshalb möglichst gering gehalten werden soll. Eine mögliche Gegenstrategie könnte die Umstellung auf Teilpreise sein. Statt eines Gesamtpreises, den Nettozins, werden Bereisteilungsprovision auf den zugesagten, nicht in Anspruch genommenen Kredit, Zinsen auf den in Anspruch genommenen Kredit, Kreditprovision auf den Höchstsollsaldo der Kreditinanspruchnahme, Umsatzprovision auf den Umsatz der größeren Kontoseite bzw. Kontoführungsgebühren auf die Zahl der Buchungen oder Spesenersatz festgelegt. So reduziert man die Markttransparenz in Bezug auf Preisvergleiche und mindert den Verhandlungsdruck seitens des Kunden durch verschiedene geringe Zugeständnisse. Zusätzlich kann man durch das Mittel der Ausgleichspreisstellung das Augenmerk von dem Einzelabschluß auf die Gesamtgeschäftsbeziehung lenken. Statt einen Gewinnbeitrag oder eine Risikoprämie durch den Kredit zu erzielen, orientiert sich ein Vorzugszins lediglich an Opportunitätskosten einer Alternativanlage. Eine Erfolgskompensation findet dann durch andere vereinbarte Geschäfte statt.
3.4.2.2. Zahlungsverkehr
Dienstleistungen im Zusammenhang mit Lohn- und Gehaltskonten, die als Grundlage der Zahlungsabwicklung anzusehen sind, kostenlos zur Verfügung zu stellen, um so an Folgegeschäfte zu gelangen, ähnelt der Ausgleichspreisstellung im Kreditbereich. Hier erwies sich die Vorgehensweise aufgrund unterschätzter Zusatzkosten und einer zu hohen Belastung der Zinsspanne als eine Fehlkalkulation. So geht man wieder zu einer kostenorientierten Preisstellung zurück. Die Schwierigkeiten der Bestimmung einer Bemessungsgrundlage im voraus aufgrund der unvorhersehbaren Nutzung der Leistung und das Bedürfnis nach einer möglichst übersichtlichen Preisstruktur umgeht man durch das Prinzip der Freiposten. Durch eine vergangenheitsorientierte Betrachtung des Durchschnittsguthabens verdient sich der Kunde von dessen Höhe abhängige Freiposten, die in der Folgeperiode zu Preisnachlässen bei der Kontonutzungsgebühr führen. Die Zinserlöse durch die zur Verfügung gestellten Sichteinlagen können dadurch an den Kunden weitergegeben werden.
3.4.3. Vertriebspolitik
Eine gewisse Einzigartigkeit im Dienstleistungsbereich stellt das. natürlich auch durch die Unternehmensgrößen ermöglichte. Filialkonzept dar. Bei der Zweigstellendichte liegen die Sparkassen und Genossenschaften laut Aufstellung 3.2 im Gegensatz zu den Privaten klar vorne. Immer größere Bedeutung gewinnt der aktive Vertrieb über eigene oder fremdeAbsatzmittler. Vor allem für Darlehen von Bausparkassen und Hypothekenbanken mit der Ergänzung um Fondszertifikate wird diese Vertriebsform gewählt. Dieser Vertriebsweg wird mit Sicherheit in Zukunft auch auf andere Leistungsbereiche ausgedehnt werden. Gesprächstermine werden verstärkt außerhalb der Öffnungszeiten vereinbart, dann nämlich, wenn ein erwerbstätiger Kunde Zeit hat. Die Berater werden auf Wunsch den Kunden mit einem online-fähigen PC zu Hause aufsuchen, dort natürlich, wo der Kunde alle nötigen Unterlagen griffbereit hat. In der Vergangenheit haben allerdings die Direktbanken für die einschneidensten Veränderungen gesorgt. Durch Homebanking vergrößert sich die Distanz zum Kunden aufgrund der Kommunikation über ein Medium. Die persönliche Beziehung zwischen den Geschäftspartnern wird geschwächt. Dieselbe Auswirkung hat auch die Automatisierung durch Kontoauszugsdrucker und Geldautomaten.
Die Entscheidung, an welchen Vertriebsorten und über welche Vertriebswege die Produkte verkauft werden sollen, bestimmt maßgeblich den Charakter eines Bankinstitutes.
Dabei unterscheidet man high envolvement Produkte, die erklärungsbedürftig sind, ein hohes Volumen beinhalten oder eine überdurchschnittliche Rendite in Ausssieht stellen, von low envolvement Produkten bzw. Routineleistungen. Man differenziert in der Art des einmaligen Kontaktes zwischen kontaktintensiv und -arm, aber auch bzgi. der Anzahl der Kontakte in kontakthäufige und -seltene Leistungen.
3.4.4. Kommunikationspolitik
Die Kommunikation unterliegt besonders hohen Anforderungen im Geldgeschäft aufgrund der nötigen Seriosität. Neben den üblichen Mitteln des persönlichen Verkaufs, der unpersönlichen Werbung und Öffentlichkeitsarbeit, wird die direkte Kommunikation als Form des Direktmarketings aus Abschnitt 2.3 einen entscheidenden Stellenwert erlangen. In Zukunft werden die Banken zu einem aktiven und effizienten Vertrieb gezwungen sein.Viel stärker als bisher muß eine Bank auf aussichtsreiche Kunden zugehen und ihnen den Erwerb der Leistungen schmackhaft machen. Anders sind Konzepte wie z.B. das Cross Selling nicht umsetzbar.
3.5. Mögliche Einsatzfelder des Data Mining
Die interessantesten Einsatzmöglichkeiten berühren die Bereiche Marketing und Controlling. Beispielhaft werden die folgenden 6 Punkte aufgezählt:
Kundensegmentierung für effektives Zielgruppenmarketing: Der heterogene Kundenstamm wird in einige wenige homogene Kundengruppen zerlegt. Da sich die Kunden eines Segmentes ähnlich sind, kann man sie gezielt durch eine individuelle Vorgehensweise betreuen.
Bestimmung von Kaufneigungen: Für eine Auswahl besonders interessanter Produkte wird das jeweilige Kundenprofil ermittelt, das eine hohe Kaufwahrscheinlichkeit gewährleistet. Somit wird die Ansprache des richtigen Kundensegmentes ermöglicht, um Streuverluste gering halten zu können.
Entdeckung von Abwanderungsbestrebungen: Durch die Akquisitionskosten zur Gewinnung eines Neukunden wird eine Geschäftsbeziehung erst nach einiger Zeit für ein Finanzinstitut ertragreich. Deswegen ist man bestrebt einer starken Fluktuation der Kunden sowie hohen Stornoquote bei Einzelverträgen entgegenzuwirken. Deswegen wird zum einen das Profil von treuen Kunden ermittelt, um sich auf dieses Kundensegment bei der Akquisition zu konzentrieren. Zum anderen versucht man bei gefährdeten Kundenbeziehungen durch zusätzlichen Service oder Vergabe von Trcucboni die Kundenbindung zu stärken. Weitere vertiefende Anmerkungen sind Unterabschnitt 8.2.2 zu entnehmen.
Bonitätsanalyse für Kreditgenehmigungen und -verlauf: Eine klassische Anwendung ist die Überprüfung der Kreditwürdigkeit. Aber nicht nur bei der Vergabe von Krediten. sondern auch in deren Verlauf ist eine Kontrolle hilfreich. Nur so ist das Finanzinstitut in der Lage bei sich verändernden Rahmenbedingungen einen gefährdeten Kredit zu entdecken. Als Gegenmaßnahmen bieten sich bspw. eine Umschuldung oder eine Tilgungsreduzierung durch Streckung der Laufzeit an. Nur dadurch kann man einer drohenden Zahlungsunfähigkeit frühzeitig entgegenwirken.
Profilermittlung der rentablen Kunden und Stammkunden: Nicht nur die Dauer der Kundenbeziehung, sondern auch die individuelle Inanspruchnahme der Finanzdienstleistungen bestimmt die Profitabilität eines Kunden. Somit ist die Profilermittlung von Kunden interessant, die über ein ausgeprägtes Nutzungsverhalten verfügen.
Analyse der Faktoren, die Kundenzufriedenheit auslösen: Eine hohe Zufriedenheit auf Kundenseite ist eine notwendige Voraussetzung für eine ertragreiche und langfristige Geschäftsbeziehung. Eine Ermittlung der Faktoren, die zu einer hohen Zufriedenheit führen, versetzt ein Unternehmen in die Lage, diese möglicherweise gezielt zu verstärken.
4. Knowledge Discovery in Databases (KDD)
4.1. Begrifrsdefinition
Der Begriff wird zum ersten Mal 1989 durch einen gleichnamigen Workshop auf der llth International Joint Conference on Artificial Intelligence (IJCAI) verwendet und folgendermaßen definiert:
,,Knowledge discovery in databases is a non-trivial process of identifying valid, novel potentially useful and ultimately understandable patterns in data. [FPSS96, S.6]
Die acht Begriffe werden folgend näher erläutert:
Daten Die Datenbasis besteht aus einer Menge von Objekten F (facts), die jeweils durch eine Anzahl Merkmale und deren individuellen Ausprägungen definiert sind.
Muster Ein Muster ist ein Ausdruck E (expression) in einer Sprache L (language), das eine Objektteilmenge Fe C F beschreibt.Allerdings muß es sich um eine kompakte Beschreibung handeln, in der die Regelmäßigkeiten zum Ausdruck kommen.
Prozeß Der Entdeckungsprozeß vollzieht sich über mehrere Schritte, die sich iterativ wiederholen können. Einige davon sind die Datenaufbereitung, die Mustersuche. Ergebnisüberprüfung und -Verbesserung.
Gültigkeit Die Bemühungen erfolgen in der Regel nicht, um zu beschreiben, sondern vor allem um Vorhersagen zu treffen. Dafür müssen die ermittelten Muster auch für neue Daten mit einem gewissen Grad an Sicherheit zutreffen. Das Gewißheitsmaß c = C(E.F) wird für einen Ausdruck E. der sich auf die Datenbasis F bezieht, durch die Funktion C (certainty) ermittelt.
Neuartigkeit Die Muster E müssen unerwartetes Wissen über die Daten F enthüllen, dessen Grad der Unbekanntheit durch die Funktion N(E.F) (novelty) gemessen wird. Diese resultiert aus der Abweichung von eingetroffenen Werten im Vergleich zu vorherigen oder erwarteten.
Nutzenbeitrag Die Muster müssen unmittelbar auswertbar sein und in Aktionen münden. deren Ergebnis man durch die Nutzenfunktion U(E,F) (utility) mißt.
Verständlichkeit Zudem sollen die Muster in einer simplen verständlichen Sprache formuliert sein, so daß sie unmittelbaren Einblick in die Datenzusammenhänge gewährleisten. Aufgrund der schwierigen Meßbarkeit, ermittelt man die Einfachheit s(E, F) (simplicity) eines Ausdrucks. Diese Maße reichen von der simplen syntaktischen Bewertung bis zu semantischen Betrachtungen.
Wissensgewinnung Ein neues Muster führt nur dann zu einem höheren Wissensniveau. wenn seine Interessantheit einen Schwellwert überschreitet. Das Interesse i = I(F. E, C, N, U, S) eines Musters E, das Teile der Daten F abbildet, resultiert aus den letzten vier Aspekten Gewißheit. Neuheit. Nutzen und Einfachheit. Zwischen diesen Eigenschaften besteht oft ein Zielkonflikt, aber nur bei einer Ausgewogenheit der vier Ausprägungen kommt tatsächlich ein Wissenszuwachs zustande, denn ein noch so präzise beschreibendes Muster hat keinen Vorhersagewert, wenn die Unsicherheit zu hoch ist. bringt keinen Fortschritt, wenn es Bekanntes wiederholt. führt zu keiner Verbesserung, wenn es nicht umsetzbar ist. und präsentiert keine neuen Erkenntnisse, wenn es sein Wissen nicht offenbart.
Der Unterabschnitt 4.3.2 geht genauer auf die Einbettung des Data Mining in den KDD Prozeß ein. Während man unter Knowledge Discovery in Databases den umfassenden Prozeß der Vorbereitung. Analyse. Bewertung und Interpretation versteht, bezeichnet Data Mining Wahl und Einsatz der Mittel, mit denen Muster aus den Daten enthüllt werden. Erst durch den gesamten Prozeß erhält man generiertes Wissen, das umsetzbar ist.
4.2. Der KDD-Prozeß
Das Data Mining wird durch ein Pre- und Postprocessing in den KDD-Prozeß eingebunden. [Boe97, Abb.5] In einem vorgeschalteten Definitionsschritt werden die Analysevoraussetzungen festgehalten. Nachdem man das Aufgabengebiet ausreichend beleuchtet, bereits bestehendes Vorwissen oder Vermutungen gesammelt und die Analyseziele aufgelistet hat. kann der Prozeß beginnen:
1 Selektion Aus dem gesamten Datenpool werden nur die benötigten Variablen (Merkmalsselektion) extrahiert und in einer Tabelle zusammengestellt. In der Regel handelt es sich um Variablen, die einen gewissen Sinnzusammenhang zu der Zielvariablen aufweisen. Dieser Schritt könnte auf den ersten Blick dem Ansatz vom Entdecken gerade unerwarteter Mustern durch Data Mining widersprechen. Jedoch kommt man in der Praxis manchmal aufgrund begrenzter Rechnerkapazitäten um eine Problemreduktion nicht umhin oder cs werden im Laufe weiterer Iterationen uninteressant gewordene Variablen entfernt.
In Abschnitt 6.2 wird erläutert, wie innerhalb der verwendeten Datenmenge (Objektselektion) wiederum eine Selektion erfolgt. Dabei teilt man diese in bis zu drei verschiedene Untermengen auf.
2. Preprocessing In der Praxis können aufgrund von einigen tausend Kunden, jahrelan ger Datenerfassung und Millionen Transaktionen Dateninkonsistenzen auftreten. Dem Analysten liegen dann fehlende bzw. falsche Einträge vor.° Diese müssen erstmal entdeckt und dann über deren weitere Behandlung, wie z.B. Weglassen oder Ersetzen von Werten, entschieden werden.
3. Transformation Zunächst kann cs sich hierbei um eine reine Umkodierung handeln. bei der Zeichen durch Zahlen ausgetauscht werden, denn die meisten Algorithmen können nur letztere verarbeiten. Man kann weiterhin eine Dimensionsreduktion durchführen, wenn der Informationsverlust nicht zu groß wird. Somit erhält man weniger Variablen und die Verarbeitungszeit kann verringert werden. Denkbar wäre die Faktoranalyse . bei der aus einer großen Anzahl Variablen nur wenige Faktoren resultieren. [BEPW96, S.189]
4. Data Mining Um den eigentlichen Data Mining Schritt durchzuführen, müssen vor her Absicht und Algorithmus gewählt werden.Die Aufgaben werden in Unterabschnitt 4.3.2 und die Algorithmen in Abschnitt 6.2 näher erläutert.
5. Interpretation Die ermittelten Muster erhalten nur dann einen Wert, wenn aus ih nen Aussagen abgeleitet und Aktionen durchgeführt werden können. Vorher muß geprüft werden, ob tatsächlich interessante Zusammenhänge vorliegen. Beispielsweise sind Trivialitäten, technische Zusammenhänge und Abhängigkeiten durch noch enthaltene Zukunftsinformationen wertlos.
Um die Zuverlässigkeit der Aussagen zu beurteilen, ist deren Gütebewertung insgesamt zu erfolgen. Somit erhält man einerseits eine qualitative und andererseits eine quantitative Interpretation. Auf letztere geht detailliert der Unterabschnitt 6.1.3 ein.
Neben der hier von Fayyad et al. beispielhaft aufgeführten Prozeßbeschreibung, existieren weitere Prozeß modelle'. In Abbildung 4.1 erkennt man. daß zuerst das Analyseziel festgelegt werden muß. Wie oben beschrieben wird hierbei die Ausgangsbasis definiert. Selektion und Transformation werden als Preprocessing und Interpretation bzw. Evaluation (vgl. 6.1) als Postprocessing bezeichnet. Der Begriff deployment weist darauf hin. daß eine Umsetzung der Ergebnisse nötig ist. um einen Analysenutzen und eine neue Ausgangsbasis für weitere Untersuchungen zu erhalten. Insgesamt handelt cs sich um einen iterativen Prozeß, der mehrere Rücksprünge erlaubt und verlangt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4.1.: Ablaufdarstellung des KDD-Prozesses (Quelle: eigene Darstellung; in Anlehnung an [GS. S.2])
4.3. Data Mining
In diesem Abschnitt wird der Begriff des Data Mining in den Kontext angrenzender Themengebiete eingeordnet. Es werden Gemeinsamkeiten und Unterschiede zu bisherigen Vorgehensweisen aufgeführt. Wesentlich sind die sich anschließenden Verwendungsmöglichkeiten. nach denen die Verfahren später eingeteilt werden. Darauf folgt eine Erörterung der Ursachen, die dem Data Mining die Aufmerksamkeit verschafft haben. Zum Schluß folgen einige Hinweise zu den üblichen Schwierigkeiten bei der praktischen Verwendung.
4.3.1. Einordnung des Begriffs
Hinter der Bezeichnung Data Mining befindet sich eine Sammlung von Verfahren der Datenanalyse, die der automatischen Wissensgenerierung dienen. Gerade diese Vorgehensweise der automatischen Generierung grenzt das Themengebiet von der Statistik ab. von der cs jedoch zumindest stark beeinflußt wurde. Sic unterteilt sich in die deskriptive und induktive Statistik8, die zur Generierung bzw. Verifizierung von Hypothesen zum Einsatz gelangen. Hypothesen sind Behauptungen von Zusammenhängen, die nach statistischer Absicherung als umsetzbares Wissen dienen. Wesentlich ist jedoch, daß das statistische Vorgehen manuell abläuft.
Durch die induktive Statistik9 werden Hypothesen abgelehnt oder aufrecht erhalten. Kein Zusammenhang kann bewiesen werden, sondern es folgt lediglich keine Ablehnung mit einer gewissen Fehlerwahrscheinlichkeit. Darum spricht man von statistischer Sicherheit. Für diese Hypothesenüberprüfungen werden Testverfahren für unterschiedliche Situationen verwendet, die gewisse Annahmen voraussetzen.
Die Hypothesen stammen entweder aus Vermutungen oder sind Ergebnis der deskriptiven Statistik10 sowie der darauf aufbauenden Explorativen Datenanalyse (EDA)11. Er- stere versucht vor allem einzelne Merkmale kompakt durch Kennzahlen oder grafische Darstellungen zu beschreiben. Bei der EDA, die sich aus der deskriptiven Statistik entwickelte, stehen eher die Zusammenhänge zwischen den Merkmalen im Vordergrund. Diese werden vorwiegend durch diverse Visualisierungsmöglichkeiten repräsentiert. Zwar sind dadurch Hypothesen generierbar, allerdings lassen sich die Vorgehensweisen schwer automatisieren, weil ausschließlich auf die Entdeckungsfähigkeiten des Menschen gesetzt wird.
Beim Data Mining geht man schließlich noch einen Schritt weiter und möchte sogar die Hypothesen von selbst generieren lassen. Somit wird eine Vorgehensweise angestrebt, die nach unsichtbaren Strukturen und unbekannten Zusammenhängen sucht. Dabei unterscheidet man, ob man ein bestimmtes Ereignis erklären oder generelle Strukturen entdecken möchte. Wesentlich ist. daß zum Data Mining eine Reihe Werkzeuge in einem einheitlichen Vorgehen verwandt werden. Die meisten Methoden entstammen den Bereichen der multivariaten Statistik und dem maschinellen Lernen. Beiden gemeinsam ist der automatische Analyseprozeß, bei dem der Mensch nur noch in der Parameterwahl aktiv werden muß.12 Dem maschinellen Lernen ist der eigene Abschnitt D gewidmet, denn es werden im Gegensatz zur recht bekannten Statistik zum Teil andere Begriffe verwendet und Ziele verfolgt. Auch dem Bereich der multivariaten Statistik13 und darunter besonders der Numerischen Taxonomie14 entspringen einige hilfreiche Methoden. Die Bezeichnung multivariat besagt, daß die Abhängigkeitsanalyse zwischen mehreren Merkmalen beabsichtigt ist.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 4.1.: Aufgaben des Data Mining (Quelle: eigene Darstellung)
Opitz betrachtet unter Klassifikation sowohl die Segmentierung als auch die Klassifizierung. Er unterscheidet zwischen dem Erstellen einer Klassifikation oder Repräsentation und der Identifikation unbekannter Objekte.
4.3.2. Aufgaben des Data Mining
Es ist zu beachten, daß bei vielen Verfahren mehrere Funktionen kombiniert werden. Die beiden Begriffe Segmentierung und Klassifizierung bilden den Schwerpunkt des Methodenteil im Kapitel 6 dieser Arbeit, wobei sie als ungerichtetes und gerichtetes Lernen bezeichnet werden. Dadurch kommt die Vorgehensweise besser zum Ausdruck, denn bei gerichtetem Lernen wird tatsächlich eine Zielvariable (target) benötigt, nach der man sich richten kann. Bei der praktischen Anwendung im Kapitel 8 wird sich aufgrund des Analyseaufwandes auf die Klassifizierung konzentriert.
Segmentierung Durch die Segmentierung versucht man sich einen Überblick von einer großen Menge heterogener Objekte zu verschaffen, indem sie in homogene Klassen oder Segmente eingeteilt werden. Dies ist möglich, weil sich viele Objekte oft ähneln oder einige sogar gleich sind. Die Segmente können zur Klassifizierung genutzt werden, oder sie werden durch eine Repräsentation veranschaulicht. Die Ermittlung dieser Strukturen können zur Kundensegmentierung oder Produktpositionierung genutzt werden. Die anschließende Klassifizierung kann die Ursache der Klassenzerlegung ermitteln.
Klassifizierung Bei der Klassifizierung liegen gegebene oder durch Segmentierung ermittelte Klassen vor, die man versucht durch Regeln oder Funktionen zu beschreiben. Ergebnis ist einerseits die Ursachenforschung von Ereignissen und anderseits die Prognosefähigkeit durch eine Abhängigkeitsbeschreibung. Alle Käufer eines Produktes könnten z.B. zu einer Klasse zusammengefaßt werden. Ziel ist nun, diese Klasse so zu beschreiben, daß man bei einem Neukunden Vorhersagen kann, ob er das Produkt kauft. Zu den regelbasierten Verfahren zählen beispielsweise die Entscheidungsbäume des Abschnitts 6.5, während die Diskriminanzanalyse in 6.4.3 und die Neuronalen Netze in 6.6 funktionsbasiert sind. Regeln sind häufig einfacher zu verstehen. Dafür ergeben Funktionen meistens genauere Beschreibungen oder Prognosen.
Repräsentation Grundlage einer Repräsentation können zum einen Daten und zum anderen ein Modell sein. Zu Beginn einer Analyse kann man Zugang zu einem Problem erhalten, indem man eine große, unübersichtliche Datenmenge in verschiedenen Varianten repräsentiert. In der Regel kommt dabei nur die Visualisierung in Frage.Unter einem Modell versteht man die kompakte Ergebnisbeschreibung einer Segmentierung oder Klassifizierung.16 Darstellungsmögiichkeiten von Modellen sind neben den oben schon erwähnten Regeln und Funktionen auch die Visualisierung. Dabei hängen jedoch die wählbaren Repräsentationsformen stark von der verwendeten Methode ab. Zudem ist es bei der grafischen Darstellung nicht einfach mehr als drei Dimensionen überschaubar zu verwenden. Deswegen kommen Dimensionsreduktionen zum Einsatz, bei denen man aber Informationsverluste in Kauf nehmen muß.1'
Verbindungen erkennen Verbindungen zu erkennen ist z.B. beim Cross Selling oder der Warenkorb analyse ( basket, analysis) interessant. Dabei wird ermittelt, welche Produkte zusammen verkauft werden können. Als Algorithmen kommen häufig association rules zum Einsatz.
Abweichungen entdecken Das relativ neue Gebiet der Analyse von Abweichungen ist das Gegenteil einer Segmentierung. Hierbei sucht man Objekte, die vom normalen Muster abweichen und die zugrunde liegenden kausalen Zusammenhänge. Beispielsweise sucht man Verhaltensauffälligkeiten, um Betrugsfälle frühzeitig zu entdecken.
Vorhersage Die Funktion prediction wurde abweichend zu [BL97] nicht extra aufgeführt, da sie meistens Hauptmotivation für die Anwendung der oben genannten Funktionen ist. Ganz entscheidend ist jedoch, daß man bei der Prognose immer die Behauptung aufstellt, man könne von der Vergangenheit auf die Zukunft schließen. Es ist unbedingt zu bedenken, ob die Voraussetzungen dafür noch vorliegen oder die Situation mit der vergangenen, in der die Daten entstanden sind, nichts mehr gemeinsam hat. Ein gewisses Mindestmaß an Datenaktualität ist somit eine wichtige Voraussetzung.
Tabelle 4.1 stellt die in der Literatur häufig auftretenden Verfahren vor. die für die unterschiedlichen Anwendungen genutzt werden können. Nur die Multivariate Statistik. Clusterverfahren. Entscheidungsbäume und Neuronale Netze werden zur Klassifizierung und Segmentierung im folgenden näher beleuchtet.
Der Prozeß der Erkenntnisgewinnung während des Data Mining Schrittes läßt sich in zwei Teile separieren. Eine Lernphase wird durch eine anschließende Analysephase ergänzt und von dieser eventuell erneut angestoßen. In der Phase des Lernens ist die Maschine mit dem gewählten Algorithmus der Hauptakteur. Der Mensch tritt bei der Phase der Analyse in den Vordergrund, womit der interaktive Abschnitt beginnt.
Damit ist ein weiterer Unterschied zwischen dem gerichteten Lernen und der ungerichteten Variante angesprochen, denn er liegt außer in dem Zweck der Analyse auch in ihrer Durchführung. Während man beim gerichteten Vorgehen durch eine klare Zielvorgabe den Prozeß bereits zu Beginn in eine Richtung beschränkt, hält man den Analyseweg bei der ungerichteten Methode offen und schaut zuvor unvoreingenommen, wie die Daten strukturiert sind.
4.3.3. Auslöser der Entwicklung
Betrachtet man die wertvollen Ergebnisse des KDD Prozesses, seit wann bereits einige Algorithmen bekannt sind und wie lange Informationssysteme schon eingesetzt werden, stellt sich die Frage, warum Data Mining erst seit kurzem ein Thema ist. Berry/ Linoff [BL97. S.6] nennen auf die Frage ” Why nowľfiinf Aspekte, die seit Anfang der 90er Jahre die Entwicklung begünstigt haben.
Daten fallen an Data Mining macht erst bei sehr großen Datenmengen Sinn. Einige Verfahren benötigen sogar eine große Anzahl an Objekten, um ein Modell aufstellen zu können.Bei jeder Transaktion werden Daten von operativen Systemen erzeugt. Dazu gehören der Überweisungsauftrag, ein Vertragsabschluß, das Abheben von Geld, eine Wertpapierorder, der Anruf im Call-Center, die Abfrage am Automaten, der Einkauf mit der Kreditkarte, die Anfrage von Informationsmaterial. der Gehaltseingang auf dem Konto oder das Einreichen eines Schecks. Heutzutage gibt es viel mehr Produkte und Dienstleistungen und die Sortimente sind feiner gegliedert, so daß wesentlich mehr Daten anfallen.
Datenmengen werden gespeichert Die Daten werden nicht nur vorübergehend im System gehalten, sondern können zum Beispiel in einem Data Warehouse eine ganze Historie abbilden. Aus allen Bereichen werden die Daten zusammengeführt, mit externen Daten angereichert und zusätzlich werden verschiedene Aggregationsgrade hinterlegt. Ganze Abfragen können vorgefertigt, mitgespeichert oder auch die Daten nur in spezielle Formate gebracht werden.19 Redundanzen sind häufig gewollt, im Gegensatz zu den Transaktionssystemen, bei denen es eher auf die Zugriffszeit ankommt, und somit die Normalisierung der Daten ein angestrebtes Ziel ist. Erst der Einsatz von elektronischen Erfassung^-, Kommunikations-, und Speichersystemen hat den fast unbegrenzten Zugriff auf die Daten ermöglicht.
Elektronische Systeme sind verfügbar Neben den vorhandenen Algorithmen ist nun auch die Rechenkapazität für die Datenverarbeitung in großen Mengen vorhanden. Bei den riesigen Datenmengen ist dieses letztendlich auch der Schlüssel zum Data Mining, während die Speicherkapazitäten eher den Weg zum Thema Data Warehouse bereitet haben.
Steigender Konkurrenzdruck Verbrauchermärkte mit hartem Wettbewerb, eine wachsende Anzahl von Anbietern und geringer werdende Margen zwingen zu höherer Effizienz. Gerade in informationsreichen Sektoren, zu denen besonders die Banken und Versicherungen zählen, erweist sich die Datenauswertung als ein probates Mittel zur Rationalisierung. Neben dem Kostenfokus ist jedoch auch eine Fossierung des Umsatzes nötig. So ist man für die Umsetzung eines Individual Marketing auf mehr Wissen über den Kunden angewiesen. Während einige Data Mining Methoden schon länger in der Wissenschaft bekannt sind, kann gerade der Einsatz im Marketing dem gesamten Bereich zu einem Durchbruch verhelfen.
Zudem wird der Wert einer Information heutzutage viel höher eingeschätzt. Es sind viele Unternehmen entstanden, die lediglich von Informationen leben, weil sie diese als Dienstleister verkaufen.
Analysesoftware liegt vor Nachdem von der Hardwareseite die Voraussetzungen geschaffen wurden, hat nun die Softwareindustrie die Basis, um die Werkzeuge zu entwickeln. Darüber hinaus muß sich ein Markt für solche neuen Produkte auch entwickeln. Viel Aufklärungsarbeit über die geschaffenen Möglichkeiten ist zu leisten. Ausführliche Publikationen sind aber aufgrund von Firmengeheimnissen nicht möglich. Einige praktische Erfahrungen müssen erst gemacht und Erfolge abgewartet werden.
4.3.4. Probleme im Vorfeld
Um den Aufwand nicht unnötig zu erhöhen und zu realistischen Erwartungen zu gelangen. sind einige Gegebenheiten der vorliegenden Situation zu beachten. Die bekannten Problemfelder lassen sich im wesentlichen zwei Kategorien zuordnen. Einige Aspekte beziehen sich auf die vorliegende Datenbasis, wobei sie die KDD Schritte Selektion. Preprocessing und Transformation berühren20, und die anderen auf den verwendeten Algo-rithmus, womit sic den Data Mining Schritt selber und die Interpretation der Ergebnisse beeinflussen.
Die Schwierigkeiten in der Praxis sind vor allem in der ersten Kategorie zu finden. Dabei kommen so profane Themen wie Inkompatibilität und Inkonsistenzen zur Sprache.Jedoch wird weiter unten auf das Paradoxon hingewiesen, daß eine Datenaufbereitung sogar einem Informationsverlust gieichkommen kann. Mit Blick auf die vorhandenen Methoden bleibt deshalb die Definition und das Messen von Datenqualität, wie z.B. Genauigkeit. Aktualität und Vollständigkeit, noch ein wichtiger Forschungsbereich der Zukunft.
Diese Arbeit behandelt einerseits die Probleme, die die Verfahren gemeinsam haben, aber andererseits auch die durch ihre Unterschiedlichkeit verursacht werden. Bei der kritischen Beleuchtung des Themas Data Mining treten zusätzlich die wesentlichen Schwierigkeiten auf dem Weg zur Datenanalyse ins Scheinwerferlicht: ” Außerhalb dieser wissenschaftlichen Diskussion kommt dem Begriff des Data Mining eine katalysierende Funktion zu. Man widmet sich unter dem Schlagwort Data Mining wieder vermehrt den Problemen der Datenbereitstellung und -auswertung insgesamt.” [HBM97, 602]
4.3.4.1. Datenproblematik
Unvollständigkeit Realdatenbankensind in der Regel die Quelle für operative Systeme und dadurch für eine Datenanalyse nicht vorgesehen. Somit sind häufig interessante Datenfelder nicht richtig gepflegt, weil sie für die Transaktionsabwicklung keine Rolle spielen. Beispielsweise fehlen Alters- und Geschlechtsangaben.Meistens liegen aber nicht die wertvollen Daten zur Zufriedenheit, zu Engagements bei anderen Unternehmen oder zur Risikoeinstellung vor. Natürlich fehlen auch Aussagen über Gründe diverser Kundenentscheidungen oder Bindungsfaktoren, aber die auf Basis der verfügbaren Daten zu erhalten, ist ja gerade Sinn der Datenanalyse. Dieses sind die Erklärungen für das Paradoxon, daß trotz riesiger Datenmengen kaum Informationen vorliegen.
Irrelevanz Da das Data Mining dem besonderen Anspruch des Entdeckens unerwarteter Zusammenhänge gerecht werden soll, kann man die scheinbar unnötigen Daten nicht ohne weiteres wegiassen. Denn in ihnen liegt u.a. der Schlüssel zu außergewöhnlichem Erfolg. Die zu analysierenden Datentabellen erreichen aber so durch die große Anzahl an Merkmalen eine immens hohe Dimensionalität. Der Suchraum kann erst aufgrund der Ergebnisse der erfolgten Analysen sukzessive reduziert werden. Die Algorithmen sind zwar für diese Datenmengen konzipiert, aber basieren oftmals nur auf Näherungen und Heuristiken. Die meisten Verfahren haben aber auch Schwierigkeiten mit Datenredundanzen, die nicht vorher beseitigt wurden. Aber selbst Prognosen durch lediglich hochkorrelierte Daten sind erfolglos, weil diese wahrscheinlich durch den offensichtlich direkten Bezug im Falle der Vorhersage ebenfalls nicht vorliegen.
Datenschmutz Es ist kaum zu erwarten, daß Datenbanken die Realität richtig abbilden können. Das liegt nicht nur allein an der vereinfachenden Wirkung von Modellen. sondern an Abweichungen aufgrund schwieriger Meßbarkeit oder fehlerhafter Eingabe von Daten. Gerade Ausreißer, die in der Statistik gerne eliminiert werden. erweisen sich häufig als wesentliche Hinweise auf interessante Fakten. Demnach ist das Reinigen scheinbarer Anomalien nicht unproblematisch. Bezüglich der Datensicherheit sind deshalb die Ergebnisse mit statistischen Maßen, wie z.B. Vertrauensintervallen und Fehlermaßen, zu ergänzen.
Aktualität Demographische Kundendaten sind nicht immer auf dem aktuellen Stand. Wer teilt schon seinem Kredit- sowie Versicherungsinstitut die Hochzeitbzw. Scheidung, die Geburt eines Kindes oder den beruflichen Aufstieg bzw. Wechsel mit? Erfassen und interpretieren die Institute denn die Gutschrift von Kindergeld, eine Gehaltserhöhung oder die Überweisung von einem anderen Unternehmen als Arbeitgeber? Zu berücksichtigen ist auch die Frage, wie alt gekaufte, externe Daten bereits sind. Zu beachten sind auch die Zeitpunkte für zusätzliche Datenerfassungen oder Stichtage von aggregierten Größen. Nicht zuletzt finden die Updates des eventuell vorhandenen Data Warehouses, auf die das Data Mining zugreifen könnte, nicht laufend statt. Analysen und Aktionen benötigen außerdem noch Zeit, bis die Kommunikation mit dem Kunden erfolgt. Besorgniserregend wird es besonders dann, wenn sich Marktentwicklungen nicht schnell genug in den Systemen widerspiegeln, denn gerade heutzutage wird immer propagiert, daß das einzig Beständige der Wandel ist.°
Overfitting Es handelt sich dabei um ein Auswendiglernender Daten, wenn die Basis aufgrund weniger Objekte zu klein ist. Es wird nicht sofort einleuchten, warum dieses Phänomen bei so großen Datenmengen auftauchen kann. Jedoch möchte man manchmal Erkenntnisse zu einem Aspekt ermitteln, zu dem gar nicht so viele Daten vorliegen. Ein Beispiel könnte ein Testmarkt für eine Neuprodukteinführung sein, denn es handelt sich nur um eine kleine Anzahl von involvierten Personen. Da aber die Wissenschaft schon immer mit der Situation von mangelnden empirischen Daten vertraut war. hat man gerade diesem Problem intelligente Techniken gegenübergestellt. Als Lösungsmögiichkeiten seien nur Sampling und CrossValidation genannt.
Komplexität Vielseitige Beziehungen bestehen zwischen einzelnen Datenfeldern aufgrund ihres Entstehens, Konsistenzanforderungen, Aggregationen oder geschäftlichen Zusammenhängen. Aufgrund der Verarbeitung durch elektronische Maschinen und deren simplen Kodierungsmöglichkeiten kann diese Datenkomplexität nicht mit abgebildet werden. Wenigstens ist oftmals ein Experte verfügbar, der überhaupt diese Kenntnis hat. Im besten Fall kann man die Verknüpfungen hierarchisch darstellen. Die Verfahren sind jedoch in der Regel für solche Informationen nicht zugänglich, sondern verarbeiten nur einzelne Datenfelder. Mit Redundanzfiltern versucht man zumindest Auswirkungen in diese Richtung auszuschalten. Somit berücksichtigt man bei Vorliegen von baumartigen Strukturen VorgängerNachfolger-Beziehungen. Diese auf Vererbung basierenden Rückschlüsse können nur gemacht werden, wenn sich die Vertreter homogen zu ihrer Gruppe verhalten. Beispiele sind Angaben über Produktgruppen oder Regionen, die normalerweise auch für ihre Untereinheiten gelten.
4.3.4.2. Verfahrensproblematik
Einige Probleme wurden schon bei der Unvollkommenheit der Daten angesprochen. Selbst wenn diese aus Schwächen der Algorithmen resultieren, so liegt ihre Ursache in den Daten selber. Jetzt sollen Aspekte behandelt werden, die sogar bei idealem Datenzustand nicht zu beseitigen sind, weil deren Ursache im Algorithmus verankert ist.
Autonomie Hierbei behandelt man die Rolle des Anwenders im Analyseprozeß. Es stellt sich die Frage, inwieweit ein Experte zusätzliches Wissen einbringen kann. Da Data Mining ein interaktiver Schritt sein sollte, kann man die erfolgreiche MenschMaschine-Kombination nur durch Zwischenschritte ausnutzen. Dazu muß der Algorithmus dem Mensch die Möglichkeit bieten, Zusammenhänge in seinen Ausgaben erkennen zu können und diese als neues Wissen in den Prozeß zurückfließen zu lassen. Dabei erreicht man aber schnell auf dem einen Weg die Grenzen der Darstellung von mehrdimensionalen Zusammenhängen und auf dem anderen die Beschränkung der Kodierung von Wissen. Leider kann diese mangelnde Wissensrepräsentation noch nicht durch höhere Intelligenz von Algorithmen aufgefangen werden.
Verständlichkeit Voraussetzung ist eine dem Anwender verständliche Repräsentation, wobei graphische Möglichkeiten regelmäßig genutzt werden. Aber auch Sprache in schriftlicher Form ist sinnvoll. Statt natürlicher Sprache bedient man sich eher SQL. Selbst einfache Formeln haben für einige Anwender Aussagewert. Entscheidend ist, daß dem Menschen ermöglicht wird, die Stukturen zu erkennen2', denn sonst wird sein Handlungs- und Beurteilungsspielraum zu sehr eingeschränkt.
Integration Aber nicht nur die Kommunikation mit dem Menschen ist erfolgversprechend, sondern auch die Nutzung von Auswertungen anderer Methoden. Selbst “'Das wird mit Sicherheit bei den Modellen der Neuronalen Netze nicht zu erwarten sein, wohingegen der Entscheidungsbaum diese Eigenschaften auf weist.
einfachste Erkenntnisse aus Tabellenkalkulationen oder Visualisierungen können erste Hinweise geben. Aber die Verwendung von einzelnen Algorithmen, den Einsatz auf isolierten Systemen oder mangels Kenntnis macht man von diesen Unterstützungen keinen Gebrauch.
Intelligenz Dieses ist der entscheidende Vorteil des Menschen im gesamten Prozeß gegenüber den Maschinen. Der Mangel an dieser Tugend ist deswegen neben fehlendem Wissen Grund für die schon genannten Ergebnisredundanzen. Bedeutungslosigkeit und Trivialität. So sind zum Beispiel Aussagen zu wenigen Objekten wegen der fehlenden Repräsentativität nicht sehr hilfreich. Zudem sind Regeln wie die Kaufwahrscheinlichkeit· liegt für eine KFZ- Versicherung einer Frau ohne Auto nahe bei Null oder Ein Mann über 60 Jahre ist ein aussichtsloser Adressat für eine Altersvorsorge zu erwarten. Letzterem kann man nur mit dem Schritt der Selektion oder durch ein höheres Informationsniveau der Daten entgegensteuern. Jedoch ist Vorsicht bei der Verringerung des Datenumfangs geboten, denn die Frau hat vielleicht deshalb eine hohe Kaufwahrscheinlichkeit, weil von dem Konto ihres Mannes ein Geldbetrag im Gegenwert eines Kleinwagens an ein Autohaus geflossen ist. sie demnächst Geburtstag hat oder die Versicherung extra Frauentarife anbietet.
[...]
- Citar trabajo
- Hans-Peter Neeb (Autor), 1999, Einsatzmöglichkeiten von ausgewählten DATA MINING VERFAHREN im Bereich Financial Services, Múnich, GRIN Verlag, https://www.grin.com/document/6924
-
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X.