„Von der ursprünglichen Wortbedeutung her (dia: durch, hindurch, auseinander, gnosis:
Erkenntnis) ist Diagnostik Erkenntnisgewinnung zur Unterscheidung zwischen Objekten.
[…]“ (Hossiep & Wottawa, 1993)
Gemäß dieser Definition lassen sich große Parallelen zwischen einer medizinischen Diagnose
und verbreiteten Methoden der Informatik ziehen. So erfolgt bspw. eine computergestützte
„Diagnose“, bzw. eine Einstufung einer E-Mail automatisch durch den
Spam-Filter, der anhand von festgelegten Charakteristika, wie etwa der Anzahl der
Rechtschreibfehler, die E-Mail als (Spam-)Mail klassifiziert. Methoden wie diese entstammen
allgemein dem Bereich des Maschinellen Lernens und finden in der heutigen
Zeit in vielen Softwaresystemen Anwendung (Intrusion Detection, Anti-Viren Programme
etc.). Maschinelles Lernen bezeichnet allgemein das Anwenden formaler
Strukturen (Maschinen) zur Deduktion und Induktion. Im Gegensatz dazu beschäftigt
sich das Data Mining mit der Generierung von Wissen aus Datensätzen und verwendet
dafür Methoden des Maschinellen Lernens (Clarke et al., 2009). Dazu werden Algorithmen
eingesetzt, die Muster in meist sehr großen Datensätzen erkennen und diese in
verschiedenen Darstellungsformen (Regeln, Bäumen etc.) als Domänen-Wissen manifestieren.
Damit lässt sich bspw. das Kaufverhalten von Kunden analysieren und eine
Aussage darüber treffen, zwischen welchen Produkten gewisse Synergieeffekte bestehen.
Die wohl populärste Erkenntnis, die aus der Anwendung von Data Mining resultiert,
ist eine Synergie zwischen Windeln und Bier an Wochenendtagen (Clarke et al.,
2009). Gehetzte Väter kaufen laut dieser Auswertung Windeln und Bier oft zusammen.
Oder es kann eine Aussage darüber getroffen werden, welche Eigenschaften einer
menschlichen Embryonalzelle die bestmögliche Überlebenschance für eine künstliche
Befruchtung gewährleisten (Witten & Frank, 2005).
Einige Methoden des Data-Mining, die im weiteren Verlauf näher vorgestellt werden,
werden in dieser wissenschaftlichen Arbeit auf den vorliegenden Datensatz angewandt.
Ziel ist es dabei, Wissen über die unzureichend geklärte Entstehung von Hautkrebs und
das damit verbundene Hautkrebsrisiko zu extrahieren, um eine Früherkennung und
bestmögliche Heilungschance zu ermöglichen.
Inhaltsverzeichnis
1 Einleitung
1.1 Einführung in das Thema Hautkrebs
1.2 Herkunft der Daten
1.3 Ziel und Aufbau der Arbeit
2 Grundlagen des Data-Mining
2.1 Der „Knowledge-Discovery in Databases“ (KDD) Prozess
2.2 Klassifikation
3 Data Preprocessing
3.1 Aufbereitung und Kodierung der Daten
3.1.1 Behandlung von Inkonsistenzen
3.1.2 Behandlung fehlender Werte
3.3 Konvertierung der Daten: Von CSV zu ARFF
3.4 Feature Subset Selection
4 Algorithmen des Data Mining
4.1 Entscheidungsbaum-Lerner
4.2 Regel-Lerner
4.3 Naive Bayes
4.4 Support-Vector-Machines
4.5 Bagging
5 Experimente
5.1 Patientenmodell
5.2 Ärztemodell
5.3 Ampelmodell
6 Diskussion und Ausblick
7 Anhang
Literaturverzeichnis
Abbildungsverzeichnis
Abbildung 1 - Inzidenz und Mortalität beim malignen Melanom
Abbildung 2 - ABCD
Abbildung 3 - CRISP Abstraktionsebenen
Abbildung 4 - CRISP Phasen
Abbildung 5 - Entscheidungsbaum Fußball-Beispiel
Abbildung 6 - Anzahl Untersuchungen pro Patient
Abbildung 7 - Klassifikationsgenauigkeit KNN_Metriken
Abbildung 8 - Nearest Neighbor (Wahl von k für „Sonnenbrand als Kind“)
Abbildung 9 - Aufbau einer .arff-Datei
Abbildung 10 - csv2arff UI
Abbildung 11 - Klassendiagramm csv2arff
Abbildung 12 - Support Vector Machine
Abbildung 13 - Ensemble-Verfahren
Abbildung 15 - Konfusionsmatrix Patientenmodell
Abbildung 14 - Patientenmodell Entscheidungsbaum
Abbildung 16 - Konfusionsmatrix Ärztemodell
Abbildung 17 - Konfusionsmatrix Ampelmodell
Tabellenverzeichnis
Tabelle 1 - Risikofaktoren
Tabelle 2 - Fußballspiel
Tabelle 3 - .csv im Ursprung
Tabelle 4 - Attribute_Kodierung
Tabelle 5 - Kreuztabelle: Melanom-Beurteilung
Tabelle 6 - KNN_Distanzmetriken
Tabelle 7 - CSV2ARFF_Kodierung
Tabelle 8 - Manuelle FSS
Tabelle 9 - Risiko der Hautkrebsarten
Tabelle 10 - Ärztemodell Auswertung
Tabelle 11 - Ampelmodell Auswertung
Tabelle 12 - Patientenmodell Auswertung
1 Einleitung
„ Von der ursprünglichen Wortbedeutung her (dia: durch, hindurch, auseinander, gnosis: Erkenntnis) ist Diagnostik Erkenntnisgewinnung zur Unterscheidung zwischen Ob jekten. [ … ] “ (Hossiep & Wottawa, 1993)
Gemäß dieser Definition lassen sich große Parallelen zwischen einer medizinischen Di- agnose und verbreiteten Methoden der Informatik ziehen. So erfolgt bspw. eine compu- tergestützte „Diagnose“, bzw. eine Einstufung einer E-Mail automatisch durch den Spam-Filter, der anhand von festgelegten Charakteristika, wie etwa der Anzahl der Rechtschreibfehler, die E-Mail als (Spam-)Mail klassifiziert. Methoden wie diese ent- stammen allgemein dem Bereich des Maschinellen Lernens und finden in der heutigen Zeit in vielen Softwaresystemen Anwendung (Intrusion Detection, Anti-Viren Pro- gramme etc.). Maschinelles Lernen bezeichnet allgemein das Anwenden formaler Strukturen (Maschinen) zur Deduktion und Induktion. Im Gegensatz dazu beschäftigt sich das Data Mining mit der Generierung von Wissen aus Datensätzen und verwendet dafür Methoden des Maschinellen Lernens (Clarke et al., 2009). Dazu werden Algo- rithmen eingesetzt, die Muster in meist sehr großen Datensätzen erkennen und diese in verschiedenen Darstellungsformen (Regeln, Bäumen etc.) als Domänen-Wissen mani- festieren. Damit lässt sich bspw. das Kaufverhalten von Kunden analysieren und eine Aussage darüber treffen, zwischen welchen Produkten gewisse Synergieeffekte beste- hen. Die wohl populärste Erkenntnis, die aus der Anwendung von Data Mining resul- tiert, ist eine Synergie zwischen Windeln und Bier an Wochenendtagen (Clarke et al., 2009). Gehetzte Väter kaufen laut dieser Auswertung Windeln und Bier oft zusammen. Oder es kann eine Aussage darüber getroffen werden, welche Eigenschaften einer menschlichen Embryonalzelle die bestmögliche Überlebenschance für eine künstliche Befruchtung gewährleisten (Witten & Frank, 2005).
Einige Methoden des Data-Mining, die im weiteren Verlauf näher vorgestellt werden, werden in dieser wissenschaftlichen Arbeit auf den vorliegenden Datensatz angewandt. Ziel ist es dabei, Wissen über die unzureichend geklärte Entstehung von Hautkrebs und das damit verbundene Hautkrebsrisiko zu extrahieren, um eine Früherkennung und bestmögliche Heilungschance zu ermöglichen.
1.1 Einführung in das Thema Hautkrebs
Unter dem gängigen Begriff „Hautkrebs“ werden ganz allgemein alle bösartigen Verän- derungen der Haut verstanden, die aus unterschiedlichen Zelltypen entstehen (Altmeyer & Bacharach-Buhles, 2002). Dabei ist in einer ersten groben Einteilung zwischen Krebsarten zu unterscheiden, die sich durch Melanozyten (pigmentbildende Zellen der Haut) entwickeln und solchen, die epithelial (nichtmelanozytär) entstehen. Der im Volksmund bekannte und äußerst gefährliche „schwarze Hautkrebs“, das maligne Me- lanom, gehört dabei zur ersten Gattung. Es bezeichnet einen pigmentierten Hauttumor, der auf den unterschiedlichsten Hautflächen (u.a. auch Schleimhaut, Fuß- und Finger- nägel) auftritt. Warnzeichen sind insbesondere die Neuentstehung, oder Veränderung von Pigmentmalen (s. ABCD-Regel, Abb. 2). Die besondere Gefahr des malignen Me- lanoms liegt dabei in der häufigen Metastasierung, also der „[…]Verschleppung malig- ner entarteter Zellen eines Primärtumors in andere Organe mit Ausbildung von Tochter- geschwülsten“ (Massalme, 2004) zu der die anderen Hautkrebsarten weniger neigen1. Breiten sich Tumorzellen bspw. in umliegende Lymphknoten aus, sinkt die 10-Jahres- Überlebensrate der betroffenen Melanompatienten auf 15 bis 30%. Viel häufiger als das maligne Melanom treten jedoch altersabhängige2 Vertreter der zweiten Kategorie auf, zu der das Basaliom (Basaliomkarzinom) und das Spinaliom (Plattenepithelkarzinom) gezählt werden.
Basaliome sind die häufigste maligne Hauttumorart mit einer 75-80% relativen Häufigkeit. Basaliome sind Tumore, die zumeist im Kopf-Hals-Bereich als kleine, langsam wachsende Knoten auftauchen und lokal das Gewebe zerstören. Mit einer Sterblichkeit von 0,1% der Betroffenen und ihrer geringen Metastasierungswahrscheinlichkeit ist diese Tumorart vergleichsweise ungefährlich. Die gängige Therapie in Form einer vollständigen, operativen Entfernung des Tumors bereitet jedoch gelegentlich Probleme aufgrund der betroffenen Hautfläche (Augennähe etc.).
Unter dem Begriff Spinaliom werden Tumore zusammengefasst, die zu 90% als scharf begrenzte, gerötete Male an Hautregionen beginnen, die dem Sonnenlicht permanent ausgesetzt sind (Gesicht, Ohren, Lippen etc.). Im weiteren Krankheitsverlauf bildet sich eine Verhornung und ein Knoten auf dieser Fläche. Die Letalität des Spinalioms ist mit weniger als 5% ebenfalls eher gering. Bislang bekannte Risikofaktoren der melanozytären und nichtmelanozytären Hautkrebsarten sind in unten stehender Tabelle aufgelistet (Breitbart et al., 2004):
Tabelle 1 - Risikofaktoren3 4
Abbildung in dieser Leseprobe nicht enthalten
Das Basaliom, Spinaliom und maligne Melanom stellen aufgrund ihrer kumulierten re- lativen Häufigkeit von etwa 95% aller Neuerkrankungen (Reinhold & Breitbart, 2007, S. 129-130) die drei Hauptvertreter des Hautkrebses dar. Weitere Arten sind das Merkelzellenkarzinom, das Karposi-Sarkom und das kutane Lymphom, die allesamt we- gen ihres vergleichbar geringen Stellenwertes in der nachfolgenden Untersuchung keine Berücksichtigung finden. Einen umfassenden Überblick über die Krankheitsverteilun- gen im vorliegenden Untersuchungsdatensatz findet sich im Anhang (Kapitel 7) als Häufigkeitstabellen.
Die Dermatologie kategorisierte desweiteren eine Reihe von Gewebeänderungen, die den Ausgangspunkt zur Bildung genannter Hautkrebsarten darstellen können. Diese Krebs-Vorstufen werden unter dem Begriff Präkanzerosen subsumiert. Eine häufige Unterart der Präkanzerosen, die in dieser Untersuchung erhoben wurde, ist die aktini- sche Keratose. Eine Existenz dieser Hauterkrankung geht mit einem Risiko von 20-25% auf Spinaliome einher (Reuter, 2004). Eine indirekte Vorstufe des malginen Melanoms sind dysplastische Nävi, also „Muttermale“, die eine entartete Form aufweisen und oft den Übgergang von melanozytären Nävi zum malignen Melanom darstellen (Stolz et al., 2001, S. 76 ff.). Basaliome hingegen besitzen keinerlei Vorläuferform (Breitbart et al., 2004, S. 23).
Auswertungen des Robert-Koch-Instituts der Daten des saarländischen Krebsregisters, das als einziges deutsches Krebsregister seit 1970 kontinuierlich Daten bereithält, ergaben einen signifikanten Trend, der in Abb. 1 zu verfolgen ist:
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1 - Inzidenz und Mortalität beim malignen Melanom
Die Inzidenzen (Neuerkrankungsraten) aller drei Hautkrebsarten5 steigen stetig an, wäh- rend die Mortalitätsrate beim malignen Melanom nahezu stagniert und bei epithelialen Hautkrebsarten6 (Basaliom, Spinaliom) sogar sinkt. Zurückzuführen ist dieser, auch in- ternational zu beobachtende, Sachverhalt (Breitbart et al., 2004) auf eine verbesserte Früherkennung und den Erfolg zahlreich durchgeführter Aufklärungskampagnen über Krebswarnzeichen. Die diagnostische Früherkennung von Hautkrebs gehört zur sekun- dären Prävention, während Aufklärungsarbeit in der Bevölkerung zur primären Präven- tion gezählt wird, da die darin aufgezeigten Möglichkeiten jederzeit und ohne ärztliche Aufsicht stattfinden können. Ein Beispiel für erfolgreiche Aufklärungsarbeit ist die ABCD(E)7-Regel, anhand derer Patienten gewöhnliche Nävi (Leberflecken) durch opti- sche Erkennungszeichen in einer ersten, groben Selbsteinschätzung von Ausprägungen eines malignen Melanoms selbst abgrenzen können (Deutsche Krebshilfe e.V., 2008):
- A (Asymmetrie): Unregelmäßige Formen, Abgrenzungen eines Mals
- B (Begrenzung): Unebene, nicht klare Rand-Abgrenzung
- C (Colour): Die Farbe erscheint nicht einheitlich (heller und dunkler abwechselnd)
- D (Durchmesser): Male mit einem Durchmesser von ≥ 2mm
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2 - ABCD
Die Attribute ABCD(E) ergaben sich aus einer multivariaten Analyse von 31 dermatoskopischen Kriterien (Stolz et al., 2001). Der Erfolg dieser Maßnahmen trägt maßgeblich zur Senkung der Mortalitätsraten bei. Über eines herrscht breite Gewissheit in der dermatologischen Praxis: Hautkrebs ist bei Erkennung in einem Frühstadium na- hezu immer heilbar (Breitbart et al., 2004). In der Hoffnung an diese Präventionserfolge anzuknüpfen und sie weiter auszubauen wurde diese Arbeit verfasst. Das Verständnis des Risikos (Mortalitätsraten, Metastasierungswahrscheinlichkeiten) und des Zusam- menspiels der einzelnen Hautkrebsarten (Praecancerosen bedingen Spinaliom / malgines Melanom) ist dabei für spätere Modellierungszwecke im Data-Mining (Kapitel 5) ele- mentar. Zusätzlich verschafft der Überblick über bisherig bekannte Risikofaktoren (Tabelle 1) die Möglichkeit die Ergebnisse der Experimente zu verifizieren.
1.2 Herkunft der Daten
Die notwendigen Daten zur Untersuchung auf Zusammenhänge zwischen Hautkrebser- krankungen und Merkmalen bzw. Verhaltensweisen der Betroffenen, lieferte ein „Haut- check-Programm“ der Qualitätsgemeinschaft südhessischer Dermatologen e.V., das im Januar 2006 startete. Ziel dieses Programms war die Verbesserung der Früherkennung von Hautkrebs. Hierzu wurden bundesweit etwa 7.000 Fragebögen (Abb. 1) und durch Patienten ausgefüllt und ärztliche Untersuchungen (Abb. 2) an jedem teilnehmenden Pa- tient durchgeführt. Der Fragebogen erhob Informationen über das Alter, Geschlecht, Krankheitsgeschichte und Freizeitverhalten der Teilnehmer. Neben einer Ganzkörperun- tersuchung wurden Patienten im Zuge der Hautkrebsvorsorge über Präventionsmaß- nahmen, Hauttyp, Lichtschutz und Pflegemaßnahmen durch den behandelnden Derma- tologen aufgeklärt. Patienten mit einem konkreten Hautkrebs-Risiko, oder bereits vor- liegendem Hautkrebs, wurden zusätzlich über die erforderlichen Folgeschritte unterrich- tet. In akuten Fällen fanden deshalb im Laufe des „Hautchecks“ mehrere (Folge- )Untersuchungen eines Patienten durch teils verschiedene Ärzte statt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1 - Patientenfragebogen
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2 - Ä rztefragebogen
Finanziert wurde der „Hautcheck“ über die Berufskrankenkassen der Merck KG, sowie des HEAG Konzerns, um ihre Kunden- / Patientenzufriedenheit zu steigern.
Im Anschluss an die Befragungen und Untersuchungen wurden die Daten durch die Iatrocon GmbH als Dienstleister in ein Excel-Sheet überführt und erste statistische Kennzahlen wie Häufigkeiten, Varianzen und Standardabweichungen des Datensatzes ermittelt. Ausgangspunkt dieser Arbeit ist der Datensatz nach seiner Aufbereitung durch die Iatrocon GmbH als .xslx-Datei (Microsoft Excel 2007).
1.3 Ziel und Aufbau der Arbeit
Das Ziel dieser Arbeit ist die Ermittlung und anschließende Verifikation von Modellen zur Klassifikation eines Hautkrebs-Risikos. Wie eingangs erwähnt, übernimmt die Prä- vention durch Früherkennung und Aufklärung eine Schlüsselrolle in der Bekämpfung von Hautkrebs. Bei nahezu fehlerfreier Klassifikation wäre ein Einstufungssystem für Patienten in Risikoklassen der nächste, aufbauende Schritt. Dieses System würde einer- seits die ärztliche Arbeit unterstützen und zudem die Patienten für ein eventuelles Risi- ko sensibilisieren.
Hierfür werden zunächst die Grundlagen des Data Mining (Kapitel 2) abgedeckt, um Begrifflichkeiten zu definieren und das System des Data Mining näher zu erläutern. Im Anschluss daran werden die erforderlichen Schritte des Data Preprocessing (Kapitel 3), der Daten-Vorbereitung zur weiteren Verwendung, behandelt. Kapitel 3 beinhaltet des- weiteren die Kurzbeschreibung eines Programms zur Konvertierung von .csv -Dateien in das .arff -Format. Nachfolgend wird auf die verwendeten Algorithmen der Lern- Methoden im Kapitel Algorithmen des Data Mining (Kapitel 4) eingegangen. Die Er- gebnisse und Effizienz dieser Algorithmen für den Datensatz des „Hautchecks“ werden im nächsten Kapitel, Experimente (Kapitel 5), festgehalten. Abschließend wird in Dis- kussion und Ausblick (Kapitel 6) der Ablauf der Arbeit resümiert und daraus mögliche, zukünftige Schritte geschlussfolgert.
2 Grundlagen des Data-Mining
“ We are drowning in information, but starving for knowledge. ” (Rutherford D. Roger)
Im jetzigen, digitalen Zeitalter scheint unser Gedächtnis schon längst durch die überall gegenwärtige Datenflut überholt. Daten hinterlassen bei jedwedem Einkauf, beim Inter- net-Surfen und vielen anderen Aktivitäten unsere Fußspuren in diversen Datenbanken. Begünstigt wird diese Digitalisierungs-Entwicklung durch zunehmend günstigeren Speicher und leistungsfähigere Hardware im Allgemeinen. Riesige Datenmengen allei- ne schaffen jedoch keinerlei Mehrwert, wenn nicht Informationen und Wissen daraus extrahiert werden können. Mit der Datenmenge wächst offensichtlich jedoch nicht das Verständnis über selbige. Dieser Wunsch, Sachverhalte zu analysieren und Erkenntnisse aus ihnen zu gewinnen, ist so alt wie die Menschheit. Ohne derartige Fähigkeiten wäre ein Lernprozess schlichtweg nicht möglich gewesen. In der Vergangenheit wurden Da- ten überwiegend manuell analysiert und ausgewertet, wie bspw. in den Anfängen der Statistik. Bei Datenbeständen geringer Größe stellt eine Auswertung per Hand noch keine Herausforderung dar. Die heutigen Datenbanken mit z.T. mehreren millionen Ein- trägen sind jedoch durch manuelle Bearbeitung nicht mehr zu bewältigen. Data Mining befasst sich deshalb mit der Automatisierung des Lernprozesses. Eine gute Definition für Data-Mining liefern Hand, Mannila und Smyth:
„ Data mining is the analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner. ” (Hand et al., 2001)
Data Mining ist die Analyse von (häufig großen) beobachteten Datenmengen, um uner wartete Beziehungen zu finden und die Daten in einer neuartigen Weise zusammenzu fassen, die sowohl verständlich, als auch nützlich für den Datenbesitzer ist.
Moderne Algorithmen des Maschinellen Lernens analysieren Datensätze auf logische und funktionale Zusammenhänge und liefern in kürzester Zeit meist erstaunliche Ergeb- nisse.
2.1 Der „Knowledge-Discovery in Databases“ (KDD) Prozess
Um das weitere Vorgehen dieser Arbeit und den großen Rahmen der Wissensentdeckung aus Datensätze (KDD) zu erläutern, werden im folgenden Abschnitt KDDProzessmodelle eingeführt und eines dieser Modelle detaillierter beschrieben.
Der komplexe KDD-Prozess kann formal in mehrere, vereinfachte Teilschritte zerlegt werden. Hierzu wurden von verschiedenen Parteien Prozessmodelle definiert, um ein einheitliches Vorgehen für jedes Data-Mining-Projekt zu etablieren. Ziel dieser Pro- zessmodelle war neben einer Vereinfachung und Verbesserung der Planung, Ausfüh- rung und Kontrolle von Data-Mining-Anwendungen, das Etablieren von Standards be- züglich der einzelnen Ergebnisse der Prozessschritte, sowie ein Hinweis auf übliche Probleme in KDD-Projekten (Kietz, 2009). In diesem Sinne entwickelte bspw. ein Kon- sortium aus Mitarbeitern der Unternehmen Daimler Chrysler, SPSS Inc., OHRA Bank Groep B.V. und NCR Systems Copenhagen in den Jahren 1996-1999 den CRoss Indust- ry Standard Process for Data Mining (CRISP), ein Quasi-Standard-Prozessmodell. An- dere bekannte Prozessmodelle wurden durch Han (Han & Kamber, 2006) und Fayyad (Fayyad et al., 1996) vorgestellt. Trotz den ausgesetzten Entwicklungsarbeiten an CRISP 2.0, dessen Weiterentwicklung im Juli 2006 angekündigt wurde (CRISP-DM- Konsortium, 2007), findet CRISP im industriellen und privaten Sektor weitverbreitete Anwendung (KDnuggets, 2007). Aus diesem Grund wird im Folgenden das CRISP- Modell näher erläutert.
Das CRISP-Modell stellt ein hierarchisches Prozessmodell bezüglich vier Abstraktionsebenen dar: Phases, Generic Tasks, Specialized Task und Process Instances.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3 - CRISP Abstraktionsebenen (CRISP-DM-Konsortium, 2006)
Die Ebene Phases unterteilt den Prozess des Data Mining in sechs allgemeine Phasen, die im weiteren Verlauf noch erläutert werden. Generic Tasks bezeichnet im Anschluss daran die zweite Ebene, in der es um die Aufzählung und Beschreibung der möglichen Aufgaben jeder Phase geht. Diese Aufgaben sollten gemäß der Richtlinien vollständig (complete) und robust (stable) sein. Gemeint ist hiermit, dass eine vollständige Abde- ckung des Data-Mining-Prozesses und aller Data-Mining-Anwendungen stattfinden muss und das bisherige Modell seine Validität auch bei zukünftigen Modellierungsän- derungen beibehalten soll. In der dritten Ebene, Specialized Tasks, erfolgt schließlich die Abbildung der allgemeinen Aufgaben aus der vorigen Generic-Tasks -Ebene auf die individuellen, spezialisierten Aufgabengebiete. Beispielsweise spezifiziert sich der all- gemeine Schritt des Data-Cleaning je nach Attributtyp der konkreten Anwendung zu einem numerischen oder nominalem Data-Cleaning. Abschließend enthält die letzte Phase, Process Instances, zu Dokumentationszwecken Aufzeichnungen der Aktionen, Entscheidungen und Ergebnisse einer realen Prozess-Instanz (Chapman et al., 2000).
Die zentralen Abschnitte der Phases -Ebene sind: Business Understanding, Data Un derstanding, Data Preparation, Modeling, Evaluation und Deployment.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4 - CRISP Phasen (CRISP-DM-Konsortium, 2006)
Nachstehend werden die Hauptaufgaben jedes Abschnitts kurz zusammengefasst. Im Schritt Business Understanding soll der Data-Mining-Anwender sich das Hintergrundwissen über den realen (Geschäfts-)Prozess aneignen und in Anlehnung an die Projektziele- und Anforderungen eine Data-Mining Problemstellung ausarbeiten. Im Anschluss daran erfolgt während des Data Understanding eine Analyse der Ausgangsdaten im Hinblick auf mögliche Qualitätsprobleme, erste Hypothesen und versteckte Informationen. Diese Vorbereitung dient der nächsten Aufgabe, der Data Preparation, in der Datensätze und Attribute ausgewählt, bereinigt und ggf. transformiert werden. In der Modellierungsphase Modeling werden diverse Data- Mining-Techniken auf den Datensatz angewandt und optimale Parameter bestimmt. Typischerweise werden mehrere Methoden zur Modellbildung genutzt, die oft bestimmte Anforderungen an die Daten stellen. Methoden, die auf einer linearen Regression basieren, verlangen bspw., dass alle Attribute in numerischer Form vorliegen. Um diesen Ansprüchen gerecht zu werden ist in solch einem Fall deshalb eine Rückkehr zur Data Preparation notwendig (Chapman et al., 2000).
Das CRISP -Modell, in seiner vorgestellten Form als Phasenmodell, definierte den wei- teren Ablauf der Arbeit. Die Phase Business Understanding wurde hierbei durch Kapitel 1.1 umgesetzt, um einen groben Überblick über Hautkrebsarten, Relevanz und bisherig bekannte Risikofaktoren zu verschaffen. Die darauffolgenden beiden Phasen, Data Un- derstanding und Data Preparation, finden sich nach einer Einführung in die Data- Mining Grundlagen in Kapitel 3 wieder. Kapitel 3 geht dabei detailliert auf Qualitäts- probleme der Daten und qualitätssteigernde Maßnahmen ein. Modelling und Evaluation sind abschließend durch Experimentreihen an drei Modellen in Kapitel 5 dargestellt.
2.2 Klassifikation
Es lassen sich hauptächlich vier Arten des Lernens in Data Mining-Anwendungen un- terscheiden: Die Klassifikation, die Assoziation, das Clustering und die numerische Vorhersage. Assoziatives Lernen beschäftigt sich mit den Zusammenhängen aller Attri- bute untereinander und erweitert damit die Klassifikation, die sich auf einzelne Attribute der Relation fokussiert und Zusammenhänge zwischen der Ausprägung dieser Attribute und dem Rest darstellt. Im Clustering werden Beispieldatensätze anhand von Ähnlich- keiten in Gruppen zusammengefasst und eine numerische Vorhersage stellt bei einer Relation, die ausschließlich auf numerischen Werten basiert, ein Funktionsterm auf, mit dem ein Attributswert eines neuen Beispiels berechnet werden kann. Nachfolgend wird die Klassifikation näher betrachtet, da diese essenziell für die Problemstellung der Einstufung eines Hautkrebsrisikos ist.
Den Ausgangspunkt für die Klassifikation bildet ein Datensatz mit klassifizierten Bei- spielen8. Die Klassifikation bezieht sich meist auf ein Attribut. Die Ausprägung dieses Attributs muss in dem Trainingsdatensatz enthalten sein. Anschließend versucht ein Al- gorithmus Muster in den Beispielen zu finden, die ein Klassifikationsmodell ermögli- chen. Diese Muster oder Regeln werden schließlich verwendet, um neue, unklassifizierte Beispiele einzuordnen. Ein stark vereinfachtes, fiktives Beispiel ist der unten stehenden Tabelle (Tabelle 1) zu entnehmen. Hierbei wird versucht anhand eini- ger Umweltzustände wie der Fitness der Spieler, der Stärke des Gegners etc. den Aus- gang der nächsten Spiels eines Fußballvereins zu schätzen. Dazu wurden an vergange- nen Spieltagen die entsprechenden Beobachtungen in der Tabelle Fußballspiel doku- mentiert. Auf Basis dieser Beobachtungen wurde ein Klassifikationsmodell bestimmt, das in Tabelle 2 zu finden ist.
Tabelle 2 - Fuß ballspiel
Abbildung in dieser Leseprobe nicht enthalten
[...]
1 Die Metastasierungswahrscheinlichkeit beträgt 0,003-0,5% (Basaliom) und 5-6% (Spinaliom). Beim malignen Melanom ist die Tumordicke entscheidend. (Breitbart, Wende, Mohr, Greinert, & Volkmer, 2004).
2 Häufigkeitsgipfel: 65-69 Jahre (Basaliom) und 70-74 [männliche Patienten] / 75-79 [weibliche Patienten] Jahre (Spinaliom), während 50% der Melanompatienten jünger als 60 Jahre sind
3 Überbegriff für Verfahren bei denen „Immunsuppressiva“ eingesetzt werden. Diese Medikamente unterdrücken eine Immunantwort des Körpers [Bsp.: Antibiotika, Zytostatika (Krebsmittel) etc.] (Altmeyer & Bacharach-Buhles, 2002)
4 „Das Wort ‚Anamnese‘ stammt aus dem Griechisch-Lateinischen, bedeutet ‚Erinnerung‘ und wird im medizinischen Kontext als Vorgeschichte einer Krankheit gesehen“ (Duden, 2001)
5 Aus Platzgründen wurde auf die Darstellung der Inzidenzen und Mortalität von Basaliom und Spinaliom verzichtet. Ausführliche Statistiken, die gleichartige Entwicklungen (steigende Inzidenzen bei stagnieren- den, oder rückläufigen Mortalitätsraten) belegen sind in (Breitbart, Wende, Mohr, Greinert, & Volkmer, 2004) zu finden
6 Epithelialer Hautkrebs ist auch als 'weiß er Hautkrebs' bekannt
7 Das „E“ steht für Erhabenheit (rasche Veränderung bzw. Vergrößerung) und wird in einigen Umsetzungen der ABCD-Regel noch mitgeführt (Garbe, 2006)
8 Das Lernen anhand von klassifizierten Beispielen wird auch als „ supervised learning “ bezeichnet, da die Ausprägung der Werte in der Trainingsmenge 'überwacht' wird. „ Unsupervised learning “ bildet demzufolge das Gegenstück mit unbekannten Merkmalswerten, wird aber in dieser Arbeit nicht näher erläutert. Eine gute Einführung bietet (Witten & Frank, 2005, S. 254-271)
- Quote paper
- Daniel Fischer (Author), 2011, Maschinelles Lernen zur Hautkrebsvorhersage, Munich, GRIN Verlag, https://www.grin.com/document/188861
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.