Bisher unbekanntes Wissen aus unstrukturierten Texten zu extrahieren ist Ziel von Text Mining. Es wird oft als Methode, Verfahren, Konzept oder Werkzeug bezeichnet. In sogenannten unstrukturierten Texten stößt man auf bisher nicht bekannte Inhalte, die durch geeignete Methoden erforscht werden können. Das Nutzen dieser Methoden wird daher auch zu Maßnahmen des Wissensmanagements gefasst.
Eine Statistik der International Data Corporation (IDC) besagt, dass Unternehmen weiterhin mit dem Wachstum von Daten mit unstrukturiertem Inhalt rechnen. Sie zählen zu den am stärksten wachsenden Datenquellen.
In behördlichen Einrichtungen ist es nicht unüblich unstrukturierte Dokumente digital zu verwalten. Der Plan der Bundesregierung ist bis zum Jahr 2020 in allen Bundesverwaltungen Dokumente bzw. Akten in elektronischer Form zu führen. Die Optimierung von Verwaltungsabläufen ist im Rahmen dieser Digitalisierungsinitiative nicht nur sinnvoll, sondern gleichzeitig auch eine gesetzliche Vorgabe im Rahmen des E-Government-Gesetzes (EGovG).
Man sollte an erster Stelle, an der Dokumente mit dem Unternehmen zusammentreffen, also der Poststelle, beginnen. So sagt auch Thomas Kleiner, CEO des Unternehmens iXenso, in einem Interview mit dem ECMguide: „Irrläufer und schlecht lesbare oder falsch interpretierte Dokumente sorgen nicht nur für Frust beim Empfänger, sondern verschlechtern auch die Qualität der Prozesse“. Es wird deutlich, welche Bedeutung der Posteingang für ein Unternehmen hat. Gerade für Behörden, bei denen ein Tätigwerden oftmals nur durch Anträge oder Anfragen begründet wird, ist dieses Problem enorm.
In dem Zusammenhang liest man immer wieder von Text Mining, das zur Lösung für automatisierte Postverteilung genutzt werden kann. Für die erfolgreiche Einführung einer solchen Technologie sind jedoch Erfolgsfaktoren zu identifizieren.
Hohe Investitionen in Digitalisierungsprojekte und Veränderungen von bewährten Prozessen werden in der Verwaltung eher schwergängig vorangetrieben. Daher wird mit dieser Thesis ein Grundstein für ein weiteres Vorgehen gelegt.
Inhalt
Abkürzungsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
1 Einleitung
1.1 Themeneinführung
1.2 Aufbau der Arbeit
1.3 Ziele der Arbeit
2 Projektplanung
2.1 Strukturplanung
2.2 Zeitplanung
3 Politische und wissenschaftliche Relevanz
3.1 Politik
3.2 Wissenschaft
4 Stand der Forschung
4.1 Text Mining
4.1.1 Definition
4.1.2 Abgrenzung
4.2 Verfahrensarten
4.3 Übersicht der Methoden
4.4 Prozess
4.4.1 Suche
4.4.2 Datenvorverarbeitung
4.4.3 Bewertung und Selektion
4.4.3.1 Klassifikation
4.4.3.2 Clustering-Verfahren
4.4.4 Informationsextraktion
4.5 Praxis
4.5.1 Anwendungsgebiete
4.5.2 Postverteilung
5 Erhebung von Expertenwissen
5.1 Untersuchungsgegenstand
5.2 Forschungsdesign
5.3 Qualitative Datenerhebung
5.3.1 Interview-Leitfaden
5.3.2 Interviewpartner
5.3.3 Durchführung und Protokollierung
5.3.4 Analyse
6 Interpretation der Ergebnisse
6.1 Teilergebnis: Ist-Prozess
6.2 Teilergebnis: Qualität Ist-Prozess
6.3 Teilergebnis: Potential von Text Mining
6.4 Teilergebnis: Erfolgsfaktoren
7 Handlungsempfehlungen
8 Fazit
8.1 Kritische Würdigung
8.2 Zusammenfassung
8.3 Ausblick
Literaturverzeichnis
Anhang 1: Projektstrukturplan
Anhang 2: Gantt-Diagramm Teil 1
Anhang 3: Gantt-Diagramm Teil 2
Anhang 4: Datenschutzvereinbarung
Anhang 5: Gesprächsprotokoll 1
Anhang 6: Gesprächsprotokoll 2
Anhang 7: Gesprächsprotokoll 3
Anhang 8: Gesprächsprotokoll 4
Anhang 9: Gesprächsprotokoll 5
Anhang 10: Gesprächsprotokoll 6
Anhang 11: Kategoriensystem
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Business-Intelligence-Werkzeuge
Abbildung 2: Merkmale von Big Data
Abbildung 3: Die Zweiteilung von Text Mining
Abbildung 4: Venn-Diagramm zur Unterteilung in sechs Gebiete
Abbildung 5: Text-Mining-Prozess
Abbildung 6: Grundannahme der Klassifikation
Abbildung 7: Binäres Clustering
Abbildung 8: Hierarchisches Clustering
Abbildung 9: Self-Organization Map
Abbildung 10: Markante Kriterien zur Informationsextraktion
Abbildung 11: Forschungsdesign
Abbildung 12: Operationalisierung
Abbildung 13: Auswahl Interviewpartner
Abbildung 14: Ablauf der qualitativen Inhaltsanalyse
Abbildung 15: Kategorien-Schema
Abbildung 16: Auswertungs-Kodierungsschema
Abbildung 17: Ist-Prozess Postverteilung E-Mail Teil 1/2
Abbildung 18: Ist-Prozess Postverteilung E-Mail Teil 2/2
Abbildung 19: Ist-Prozess Postverteilung Papierpost Teil 1/6
Abbildung 20: Ist-Prozess Postverteilung Papierpost Teil 2/6
Abbildung 21: Ist-Prozess Postverteilung Papierpost Teil 3/6
Abbildung 22: Ist-Prozess Postverteilung Papierpost Teil 4/6
Abbildung 23: Ist-Prozess Postverteilung Papierpost Teil 5/6
Abbildung 24: Ist-Prozess Postverteilung Papierpost Teil 6/6
Abbildung 25: Graphische Darstellung der Expertenmeinungen
Abbildung 26: Induktive Kategorienbildung
Abbildung 27: Mind-Map der Erfolgsfaktoren
Abbildung 28: Abstrakte Darstellung des Verwaltungsablaufs
Tabellenverzeichnis
Tabelle 1: MoSCoW-Priorisierung
Tabelle 2: Darstellung der Zugriffe
Tabelle 3: Beispiel für Tokenisierung
Tabelle 4: Rechercheergebnis
Tabelle 5: Darstellung der Fragestellungen
Tabelle 6: Kapitelzuordnung der Schritte der Datenerhebung
Tabelle 7: Bewertung Interviewpartner
Tabelle 8: Kategorienzuordnung
Tabelle 9: BPMN Modellerläuterung
Tabelle 10: Quantifizierung der Eingangskanäle
Tabelle 11: Qualitätseinschätzung der Experten
Tabelle 12: Meinungen zum Text Mining
1 Einleitung
1.1 Themeneinführung
?Wir ertrinken in Information, aber wir hungern nach Wissen.“1
Bisher unbekanntes Wissen aus unstrukturierten Texten zu extrahieren ist Ziel von Text Mining. Es wird oft als Methode, Verfahren, Konzept oder Werkzeug bezeichnet. In sogenannten unstrukturierten Texten stößt man auf bisher nicht bekannte Inhalte, die durch geeignete Methoden erforscht werden können. Das Nutzen dieser Methoden wird daher auch zu Maßnahmen des Wissensmanagements gefasst.2
Eine Statistik der International Data Corporation (IDC) besagt, dass Unternehmen weiterhin mit dem Wachstum von Daten mit unstrukturiertem Inhalt rechnen. Sie zählen zu den am stärksten wachsenden Datenquellen.3
In behördlichen Einrichtungen ist es nicht unüblich unstrukturierte Dokumente digital zu verwalten. Der Plan der Bundesregierung ist bis zum Jahr 2020 in allen BundesVerwaltungen Dokumente bzw. Akten in elektronischer Form zu führen.4 Die Optimierung von Verwaltungsabläufen ist im Rahmen dieser Digitalisierungsinitiative nicht nur sinnvoll,5 sondern gleichzeitig auch eine gesetzliche Vorgabe im Rahmen des E-Government-Gesetzes (EGovG).6
Man sollte an erster stelle, an der Dokumente mit dem Unternehmen zusammentreffen, also der Poststelle, beginnen.7 So sagt auch Thomas Kleiner, CEO des Unternehmens iXenso, in einem Interview mit dem ECMguide: ?Irrläufer und schlecht lesbare oder falsch interpretierte Dokumente sorgen nicht nur für Frust beim Empfänger, sondern verschlechtern auch die Qualität der Prozesse“.8 Es wird deutlich, welche Bedeutung der Posteingang für ein Unternehmen hat. Gerade für Behörden, bei denen ein Tätigwerden oftmals nur durch Anträge oder Anfragen begründet wird, ist dieses Problem enorm.
In dem Zusammenhang liest man immer wieder von Text Mining, das zur Lösung für automatisierte Postverteilung genutzt werden kann.9 Für die erfolgreiche Einführung einer solchen Technologie sind jedoch Erfolgsfaktoren zu identifizieren.10
Hohe Investitionen in Digitalisierungsprojekte und Veränderungen von bewährten Prozessen werden in der Verwaltung eher schwergängig vorangetrieben. Daher wird mit dieser Thesis ein Grundstein für ein weiteres Vorgehen gelegt.
1.2 Aufbau der Arbeit
Zunächst wird der Stand der Forschung von Text Mining, inklusive theoretischen Hintergründen und aktuellen Einsatzgebieten, vorgestellt. Anschließend wird eine Verbindung von Text Mining zur Postverteilung hergestellt. Im weiteren Verlauf wird die Methode aus der Management-Sicht betrachtet.
In Kapitel 5.1 werden Annahmen gebildet, die in eine zentrale Forschungsfrage zusammenlaufen. Die Fragestellung dient im weiteren Verlauf als Leitfaden für jegliche Ausarbeitungen. Um die Frage zu beantworten, werden Experteninterviews geführt und ausgewertet. Es wird ein Ist-Prozess der Postverteilung mit der Prozessmodellierungssprache Business Process Modelling Notation 2.0 (BPMN 2.0) modelliert. Des Weiteren werden Aspekte, die bei der Einführung einer solchen Technologie zu beachten sind, im Rahmen der Interviews erfragt und über eine qualitative Inhaltsanalyse ausgewertet. In Kapitel 7 werden Handlungsempfehlungen aus den Erfolgsfaktoren abgeleitet, die dem Management notwendige Schritte bei der Einführung einer solchen Technologie aufzeigen. Diese leiten sich aus den Punkten der quanta- tiven Datenerhebung ab.
1.3 Ziele der Arbeit
Die Projektziele stellen den Leitfaden des Projektes dar.11 Das Ergebnis dieser Arbeit soll die Aufbereitung der theoretischen Grundlagen in einer verständlichen Formulierung, die Ableitung von Erfolgsfaktoren und das Erstellen von Handlungsempfehlungen für die Einführung einer solchen Technologie sein. Da das Management als Adressat dieser Arbeit gilt, werden keine intensiv technischen oder mathemati- sehen Ausführungen getroffen.
Da innerhalb dieser Arbeit das Thema nicht in vollem Umfang bearbeitet werden kann, ist eine Priorisierung erforderlich. Die nachfolgende Tabelle 1 zeigt eine Auflistung der Projektziele nach der MoSCoW-Methode:12
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung Tabelle 1: MoSCoW-Priorisierung
Aus der Methode lassen sich gewisse Priorisierungsstufen ableiten, die in Tabelle 1 in der linken Spalte dargestellt sind. Im Kontext mit den einzelnen Projektzielen, dargestellt auf der rechten Spalte, steht ?must have“ für: unbedingt erforderlich, ?should have“ für: sollte umgesetzt werden, ?could have“ für: kann umgesetzt werden und ?won’t have“ für: vorgemerkt für die Zukunft.13
2 Projektplanung
Ein Projekt ist kein dauerhaftes oder routinemäßiges Vorhaben und sollte daher immer individuell betrachtet werden. Es handelt sich um Tätigkeiten, die innerhalb eines Zeitrahmens anfallen. Der Zeitrahmen besitzt somit einen Anfangs- und einen Endzeitpunkt. Weitere Merkmale eines Projektes sind, dass Ressourcen finanzieller sowie personeller Art anfallen. Je nach Ziel und Bedeutung benötigen Projekte ein organisiertes Team und ein Vorgehensmodell.14
Eine Projektplanung ist von großer Bedeutung, da eine Entscheidung über einen Projektantrag durch die Entscheidungsträger nur mit notwendigen Informationen, unter anderem den Ressourcen, die das Projekt bindet, getroffen werden kann. Eine Planung kann insbesondere für die Leitung oder das mittlere Management die einzige Möglichkeit sein, Erfolg oder Misserfolg von Projekten zu messen oder zu steu- ern.15 Der nachfolgende Projektstrukturplan unterteilt das Gesamtprojekt in Abschnitte und quantifiziert die Arbeitsschritte. Anschließend werden die Abschnitte zur Visualisierung innerhalb eines Gantt-Diagramms dargestellt. Finanzielle Ressourcen werden bei der Darstellung nicht einbezogen, da ausschließlich interne Ressourcen verwendet und diese nicht verrechnet werden.
2.1 Strukturplanung
Der Projektstrukturplan gilt als Plan der Pläne, da er für eine grundlegende Struktur des Projektes sorgt.16 Die Abschnitte, die innerhalb des Projektes festgelegt werden, befinden sich auf der zweiten Ebene des Projektstrukturplans. Durch ihn wird eine Visualisierung der Projektphasen erreicht (siehe Anhang 1).17
2.2 Zeitplanung
Der nun entwickelte Projektstrukturplan gilt als Grundlage für die zeitliche Planung. Die Abschnitte werden in einem Gantt-Diagramm dargestellt (siehe Anhang 2 und 3). Ziel des Gantt-Diagrammes ist eine visuelle Planung von zeitlichen und anderen Ressourcen in Verbindung mit den definierten Schritten.18
3 Politische und wissenschaftliche Relevanz
Innerhalb dieses Kapitels werden die politischen und wissenschaftlichen Rahmenbedingungen dargelegt und gleichzeitig damit die Relevanz des Themas verdeutlicht. Die Digitalisierungsprogramme der Bundesregierung werden beschrieben und die Themen zu der Aktenbearbeitung und dem Umgang mit Dokumenten konkretisiert. Des Weiteren wird eine Einordnung der Thematik in die Wissenschaft der WirtSchaftsinformatik durchgeführt und ein Bezug zu der aktuellen Relevanz in Zeiten von Big Data vorgenommen.
3.1 Politik
Die “Digitale Agenda“, eine Broschüre der Bundesregierung und Teil der öffentlichkeitsarbeit, beinhaltet einzelne Etappen, Vorsätze und Ansichten der Regierung mit dem Hauptziel, ein einheitliches Verständnis von Politik und Digitalisierung zu errei- Chen.19 In ihr werden sowohl Punkte über Wirtschaft und Gesellschaft andiskutiert als auch Aspekte, die den Staat als Institut und öffentlichen Dienstleister betreffen.
Als wichtige Punkte ergeben sich insbesondere die Digitalisierung und das Electronic Government (E-Government). Im Regierungsprogramm “Digitale Verwaltung“ werden diese Punkte näher behandelt.20
Die “Digitale Verwaltung 2020“, ausgegeben vom Bundesministerium des Innern, setzt auf die Digitale Agenda21 und ihre Prinzipien im Bereich “Innovativer Staat“ auf. Es werden Handlungsfelder und Maßnahmen beschrieben, die gleichzeitig im EGovG festgeschrieben wurden. Die Maßnahmen sind breit gefasst und haben durch die Festschreibung im EGovG den Charakter eines formellen Gesetzes. Der ?Aktionsplan E-Akte“ beschreibt, die Vorgehensweise der Bundesbehörden bei der Umstellung von papierbasierten auf elektronische Akten. Die Regierung will die Verwaltung im Rahmen ihrer Möglichkeiten unterstützen und innerhalb der gemeinsamen IT des Bundes, eine E-Akte beschaffen und zur Verfügung stellen.22
Das EGovG hat das Ziel, die elektronische Verwaltung zu fördern und weiterzuentwickeln. Das Gesetz definiert Vorgaben zur Digitalisierung von Verwaltungsabläu- fen.23 Der Geltungsbereich dieses Gesetzes ist auf die öffentlich-rechtliche Verwaltungstätigkeit der Bundesbehörden oder behördenähnlichen Organisationen des Bundes beschränkt. Der§ 6 EGovG legt die rechtliche Grundlage zur elektronischen Aktenführung in den Bundesbehörden fest. Die technischen Maßnahmen müssen weiterhin die Grundsätze ordnungsgemäßer Aktenführung erfüllen.24
In der Beispielbehörde soll die Einführung der E-Akte mit Unterstützung eines Doku- menten-Management-Systems (DMS) erreicht werden. Das DMS hat dabei Aspekte wie Revisionssicherheit, Rechtssicherheit, Datenschutz und Langzeitarchivierung zu beachten. Durch technische aber auch organisatorische Vorgaben, werden die Grundsätze ordnungsgemäßer Aktenführung festgelegt.25
Im Onlinezugangsgesetz (OZG) wird in § 1 Abs. 1 festgehalten, dass Behörden neben den bisherigen Eingängen, nun auch elektronische Zugänge bereitstellen sol- len.26 Hieraus wird deutlich, dass bisherige, also klassische Zugänge weiterhin bestehen bleiben sollen. Sowohl in den Digitalisierungsprogrammen, als auch in den gesetzlichen Vorgaben wurden keine konkreten Vorgaben zur Digitalisierung der Eingangspost formuliert und stellen somit noch eine Lücke in den aktuellen Vorgaben dar.
Der IT-Planungsrat, als politisches Steuerungsgremium, beschäftigt sich mit der Koordination von Bund und Ländern im Bereich Informationstechnik. Hierzu zählen fachübergreifende IT-Fragestellungen sowie der Steuerung von E-Government-Pro- jekten.27 Zudem werden Fachkongresse zusammen mit den beteiligten stellen und individuellen Schwerpunktthemen geleitet. Ein Thema im Kongress 2018 ist auch die Digitale Poststelle und die automatisierte Erkennung und Zuordnung von Geschäftsgang und Akte.28 Hieraus wird deutlich, dass sich der Staat bereits mit der Digitalisierung und Optimierung von Posteingängen beschäftigt, jedoch noch keine Voga- ben definiert hat.
3.2 Wissenschaft
Innerhalb dieses Unterkapitels wird Text Mining in die Wirtschaftsinformatik eingeordnet und hiermit die Relevanz verdeutlicht.
Text Mining ist keine neue Technologie. Jedoch besagen die Google Trends, dass Text Mining weiterhin eine stetige Relevanz in Suchanfragen besitzt. So war Text Mining 2004 an einem Höhepunkt angelangt. Dieser fällt bis in das Jahr 2009. Seit diesem Zeitraum ist eine minimale Steigerung der Bedeutung weltweit anzusehen.29
Business Intelligence, ein Schlagwort der Wirtschaftsinformatik, ist nach Chen der Sammelbegriff für Techniken zur Bereitstellung, Analyse und Konsolidierung von Daten zur Entscheidungsunterstützung.30
Bange untersucht die Werkzeuge von Business Intelligence und klassifiziert diese in Datenbereitstellung (Backend), Informationsgenerierung sowie Informationsverarbeitung (Frontend) und Querschnittsaufgaben. Text Mining ist den Analysetools zuzuordnen und zählt wie in Abbildung 1 dargestellt, zu den Frontend-Werkzeugen.31
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung nach Bange, c. (2006), s. 64.
Abbildung 1: Business-Intelligence-Werkzeuge
Nach Felden ist Text Mining, als Teil des Business Intelligence, eine Methode, die Informationsflut im Unternehmen bewältigen zu können. Neben den Massen an Daten und Dokumenten im Unternehmen kommen zunehmend Informationen und Texte aus dem World Wide Web hinzu. Entscheidungsträger benötigen gewisse Filter, um relevante Informationen zu identifizieren.32
Business-Intelligence-Lösungen scheitern jedoch an Big Data, daher müssen andere Lösungen bereitgestellt werden.33 Big Data steht für den T rend an Zuwachsenden Daten.34 Aus Daten oder Informationen kann nur durch den Einsatz geeigneter Methoden wertvolles Wissen generiert werden.35
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung nach Weber. J., Urbanski, J. (2012), s. 19. Abbildung 2: Merkmale von Big Data
Wie in Abbildung 2 dargestellt, besitzt Big Data vier Facetten. Die Facette “Volume“ beschreibt die Datenmenge, die von Terabytes bis hin zu Petabytes reichen kann. “Variety“ steht für die Datenvielfalt der Unternehmen im Hinblick auf die Datenquellen und Datenformate. Die Datenformate unterteilen sich in die Kategorien unstrukturiert, semistrukturiert und strukturiert. Unternehmensinterne Daten werden durch externe Daten, wie zum Beispiel aus sozialen Netzwerken, ergänzt. “Velocity“ beinhaltet den Bereich Geschwindigkeit und steht für die stetig wachsende Anforderung der Verarbeitungszeit von Auswertungen der Daten. In dem Zusammenhang besteht ebenfalls die Anforderung der Datenverarbeitung in Echtzeit. Gefordert sind Analysen mit Antworten in Sekundenzeit sowie die Datengenerierung und Übertragung in hoher Geschwindigkeit. Die Facette “Analytics“ umfasst Methoden zur automatisierten Erkennung und Nutzung von Bedeutungen, Zusammenhängen und Mustern. Dazu gehören statistische Verfahren, Optimierungsalgorithmen, Vorhersagemodelle, Data Mining und Text- sowie Bildanalytik.36
Unter Big Data fallen nicht ausschließlich die großen Datenmengen als solches, sondern auch die Analyse derer. Dies wird auch unter der Bezeichnung “Big Data Ana- lyties“ gefasst. Es beinhaltet sowohl die Anwendung von Text Mining, als auch von Data Mining.37
Zusammenfassend ist festzustellen, dass Text Mining sowohl im Bereich Business Intelligence, als auch Big Data ein Werkzeug ist, das in der heutigen Zeit des “Information Overload“ weit verbreitet eingesetzt wird. Das Phänomen Information Overload zwingt Unternehmen dazu, ihre unternehmensinternen Daten mit Softwareunterstützung zu analysieren.38 Der Begriff stammt von Jacoby und steht für die überlastung von Kommunikationsprozessen und damit das Entstehen einer großen Menge von irrelevanten Informationen. Die Überlastung entsteht durch den Fakt, dass Menschen nur begrenzte Informationen aufnehmen und verarbeiten können.39
Ein Beispiel ist die Analyse von Kundeninformationen aus Customer-Relationship- Management-Systemen in Verbindung mit dem Kaufverhalten der Kunden. Diese Systeme nutzen die Logik des Data Mining und erlauben den Zugriff auf strukturierte
Informationen und Analyseergebnisse.40 Wird jedoch unstrukturierter Text, wie Korn- munikation oder ein Freitext, zu Grunde gelegt, eignet sich hingegen das Text Mi- ning.41 Es ist daher besonders relevant für Wissenschaft und Praxis.
4 Stand der Forschung
Zunächst wird der Stand der Forschung von Text Mining dargestellt. Der Fokus liegt auf der Methode an sich, deren verschiedener Definitionen und die Verknüpfung mit der elektronischen Postverteilung. Anhand der nachfolgenden Ausarbeitung soll insbesondere verdeutlicht werden welche Möglichkeiten Text Mining bietet, welche Zusammenhänge sich darstellen und wie diese anwendbar sind.
Anschließend wird aufgezeigt wie Text Mining bereits in der Praxis angewendet wird und welche Softwareprodukte zur Automatisierung der Postverteilung eingesetzt werden können.
4.1 Text Mining
Durch die Datenhaltung im Internet und Hochverfügbarkeit von jeglichen Informati- onsre-ssourcen steigen auch die Anforderungen an die Informationssysteme. Die Bedeutung für Hilfsmittel, die den Umgang mit diesen Informationsquellen realisieren, nimmt zu.42 Die Datenmengen liegen in zunehmender Form als Text vor. Von Organisationen werden jedoch wenig Ressourcen bereitgestellt, um diese zu analysieren. Eine Lösung kann der Einsatz einer speziellen Analysesoftware sein. Da diese jedoch nicht das Interpretationsvermögen eines Menschen besitzt, ist dies eine große Herausforderung für Wissenschaft und Praxis.43 Schätzungen zufolge werden im Internet ca. eine Million neue Dokumente pro Tag veröffentlicht, Tendenz stei- gend.44
Nach Dörre wächst die Nutzung von Text Mining und damit auch die darunter fallenden Methoden (siehe Kapitel 4.3) aufgrund der Weiterentwicklung von Intranet sowie Internet.45 In den letzten Jahren gab es einige Statistiken zur Bewertung der Wachstumsraten von strukturierten und unstrukturierten Daten.46 Eine Statistik ist derTDWI Research Report. Dieser ging im Zeitraum von 2007 bis 2010 von einer Wachstumsrate zwischen 61 bis 81 Prozent für unstrukturierte Daten aus. Die Anzahl an strukturierten Daten sinkt hingegen zwischen 15 bis 46 Prozent.47
Richard und Herschel gehen von einem Gesamtvorkommen von 80 Prozent unstrukturierter Daten, im Vergleich zu strukturierten Daten, aus.48 Wenn man die Anzahl der Steigerung von unstrukturierten Daten nun noch mit der generellen Steigerung von Daten ins Verhältnis setzt, wird deutlich warum geeignete Verfahren zur Analyse und Aufbereitung notwendig sind. Die Menschheit hat zudem im Jahr 2011 allein 1,8 Zettabyte neue Daten produziert.49
Das in Textform vorhandene Wissen kann u.a. wissenschaftliche Aufsätze, FachbüCher, Lexika, produktbezogene oder technische Dokumentationen, Handbücher, rechtliche Grundlagen, Verträge, Organisationsanweisungen, Korrespondenzen50, Präsentationen oder Projektunterlagen betreffen.51
Der Begriff Wissen umfasst die auf Erfahrungen beruhende und verifizier- bzw. falsifizierbare Kenntnis von Fakten, die zur Problemlösung eingesetzt werden.52 Das Verwalten dieses Wissens, auch Wissensmanagement genannt, sorgt für die Erfassung und Strukturierung des Wissens, der Wissensträger und der Aufbereitung zum positiven Nutzen für das Unternehmen.53
4.1.1 Definition
Ende der 90er Jahre hat sich Text Mining als ein Oberbegriff für eine Vielzahl von Methoden zur Wissensgewinnung aus Text etabliert. Feldman und Dagan prägten 1995 zunächst den Oberbegriff Knowledge Discovery in texts.54 Hinzu kamen die Begriffe: Text Knowledge Engineering,55 Text Data Mining,56 Knowledge Discovery in Texts57 und Textual Data Mining58.
Für die Benennung im Rahmen der Thesis wird der Begriff Text Mining nach Tan59 verwendet. Dieser hat sich bis heute in Wissenschaft und Praxis durchgesetzt. Für die Entwicklung einer einheitlichen Definition werden Definitionen verschiedener Autoren in einer zeitlichen Entwicklung dargestellt.
Nach Frawle und Piatetsky ist die knowledge discovery, bzw. die Wissensentdeckung, als nichttrivialer Prozess zur Entdeckung von unbekanntem, implizitem sowie potentiell nützlichem Informationen aus Daten definiert.60 Feldman und Dagan er- ganzen diese Definition mit dem Zusatz, dass die Wissensentdeckung auf textuellen Datenbanken Anwendung findet.61
Nach Hearst sowie Behme und Multhaupt steht der Begriff für eine Sammlung von Techniken zur Identifikation und Extraktion von bisher unbekannten Informationen aus Texten.62 Anhand dieser Definition ist erkennbar, dass es sich beim Datenmaterial um unstrukturierten Text handeln muss.
Mehler und Wolff definieren Text Mining hingegen als Technologie, die Textanalysen durchführt und daraus gezielt Daten exploriert und aufbereitet.63
Felden schließt sich Hearst an und sieht in Text Mining nur den Übergriff von Techniken, die aus verschiedenen wissenschaftlichen Disziplinen angewandt werden. Hierzu gehören zum Beispiel Data Mining, Information Retrieval, Computerlinguistik, Statistik oder intelligente Software-Agenten.64
????? ?.a. stellt klar, dass keine einheitliche Definition für Text Mining vorhanden ist. Vielmehr umfasst es eine Sammlung an computergestützten Verfahren sowie Methoden und Ansätzen, die semantische Analysen durchführen, Texte (semi-)automa- tisch strukturieren und neue Informationen daraus extrahieren.65
Nach Feldman und Sanger identifiziert und erforscht Text Mining, analog zum Data Mining, nützliche Informationen von interessanten Mustern. Im Gegenzug zum Data Mining, sind beim Text Mining die Datenquellen Dokumentensammlungen. Interessante Muster finden sich also nicht in formalisierten Datenbanksystemen, sondern in unstrukturierten Textdaten.66
Ebenso stellt sich heraus, dass die Anwendung von Text-Mining-Methoden ein automatisiertes Werkzeug darstellt, um der Informationsflut der heutigen Zeit gerecht zu werden.67
Aggarwal unterscheidet strukturierte und textuelle Daten. In dem Zusammenhang wird klargestellt, dass strukturierte Daten durch Datenbanksysteme verwaltet werden. Unstrukturierte Textdaten können hingegen nur durch Suchmaschinen verarbeitet werden. Neben der Erleichterung der Informationsbeschaffung ist das primäre Ziel durch Analysen Muster in Texten zu entdecken. Viele Text-Mining-Anwendun- gen identifizieren und analysieren interessante Muster, einschließlich deren Ausreißer und Trends.68
Anhand der bisher genannten Formulierungen wird innerhalb dieser Thesis Text Mining wie folgt definiert: Text Mining ist der Oberbegriff für die Analyse und das Durchsuchen von unstrukturierten Texten anhand verschiedener Methoden, mit dem Ziel unbekanntes Wissen zu extrahieren.
4.1.2 Abgrenzung
Die verschiedenen Definitionen von Text Mining und deren Bedeutung bedürfen einer Abgrenzung. Immer wieder werden andere Disziplinen erwähnt und verschiedene Begrifflichkeiten verwendet. Insbesondere stellt sich heraus, dass Text Mining als Disziplin des Data Mining zu verstehen ist. Es existieren darüber verschiedene Meinungen, die neben weiteren Begriffen nachfolgend definiert und abgegrenzt werden.
Der Begriff Data Mining wurde zur International Conference on Artificial Intelligence eingeführt69 und wird seitdem im Großteil der Literatur als Synonym für Knowledge Discovery in Databases geführt.70 Daher wird der einschlägige Begriff auch im Rahmen dieser Thesis verwendet.
Frawley u.a. verstehen unter Data Mining das nichttriviale Extrahieren von impliziten, bisher unbekannten und möglicherweise nützlichen Informationen aus Daten.71 Fa- yyad u.a. schließen sich dieser Definition an und sprechen von Wissensentdeckung in Datenbanken. Der Prozess sorgt für die Identifizierung valider, neuer, potentiell nützlicher und auch verständlicher Muster in Daten.72
Nach Feldman und Sanger leitet Text Mining viel aus der Forschung von Data Mining ab. Text-Mining- und Data-Mining-Systeme weisen viele Ähnlichkeiten auf. Eine identische Eigenschaft der Systeme besteht bei den Vorverarbeitungsroutinen, Mustererkennungsalgorithmen und den Präsentationsschichtelementen.73 Die Auffassung, dass Text Mining als Teil-Disziplin von Data Mining angesehen wird, vertreten auch einige Autoren in der Literatur.74 Weiterhin stellt Text Mining eine Erweiterung des Data Mining dar.
Das wesentliche Unterscheidungskriterium liegt somit im zu analysierenden Datenmaterial. Im Bereich Data Mining werden strukturierte und im Bereich Text Mining teil- oder unstrukturierte Daten als Grundlage verwendet.75 Nach Heyer u.a. werden strukturierte Daten, im Gegensatz zu unstrukturierten Daten, innerhalb einer Datenbank “strukturiert“ verwaltet.76 Opic u.a. ergänzen und beschreiben strukturierte Daten als Daten, die innerhalb einer relationalen Datenbank allein schon strukturiert sind, da dort eine Unterteilung in Tabellen und Spalten erfolgt.77 Ein einfacher Fließtext, der natürlich-sprachige Inhalte aufweist, ist daher unstrukturiert. Dies können Freitextfelder oder Volltexte von Schriftgut und E-Mails sein.78 Unstrukturierte Daten werden in der Regel in Content- oder Dokumenten-Management-Systemen verwaltet. Dort erfolgt eine Archivierung, Verschlagwortung, Versionierung sowie Visualisierung, die maximal semistrukturiert sein kann.79
Hinzu kommt nach Behme und Multhaupt, dass Text Mining die automatische Erkennung von Textmerkmalen, zum Beispiel Eigennamen, zusammengehörige Wortkombinationen, Abkürzungen und somit Sprachanalyse durchführen kann.80
Zusammenfassend wird festgestellt, dass Data Mining und Text Mining ähnlich funktionieren und gleiche Ziele verfolgen. Das Anwendungsgebiet bzw. das zu analysierende Material ist unterschiedlich. Text Mining versucht neues Wissen aus unstrukturierten und Data Mining aus strukturiertem Datenmaterial zu generieren.81 Die spe- ziehe Herausforderung von Text Mining liegt in dem zuvor notwendigen Prozess der Datenaufbereitung.82 Die unterschiedlichen Arten des Datenmaterials und deren Zugriffe werden zur Verdeutlichung in nachfolgender Tabelle 2 dargestellt.
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung nach Heyer, G. u.a. (2006), s. 5. Tabelle 2: Darstellung der Zugriffe
Ein zusätzlicher Begriff in der Literatur ist das Web Mining. Es handelt sich dabei um die Anwendung von Mining-Methoden auf den Anwendungsfall des Internets.83 Nach Mehler und Wolff ist Web Mining eine Weiterentwicklung des Text Minings. Die Texte liegen meist in einer spezielleren Form der Strukturierung vor und gelten als semistrukturiert. Es kommt dafür die HypertText Markup Language oder die extensible Markup Language in Betracht.84
Insgesamt können verschiedene Konzepte, je nach Strukturierungsgrad und Ursprung des Datenmaterials, angewendet werden. Welche Methoden betroffen sind, wird nachfolgend erläutert. Aufgrund des konkreten Anwendungsfalls unstrukturierter Daten, werden die Methoden und Verfahren des ?Minings“ dem Bereich von Text Mining zugeordnet und nicht als Werkzeuge von Data Mining betrachtet. Zu jedem Datenmaterial oder Analysemethode wurden unterschiedliche Algorithmen entwi- ekelt.85 Im Rahmen dieser Arbeit werden sie jedoch nicht vorgestellt, da sie für das Ziel, der verständlichen Darstellung von Text Mining, nicht notwendig sind.
4.2 Verfahrensarten
Als Grundlage für die Analysen werden, wie in Abbildung 3 dargestellt, statistische und musterbasierte Verfahren verwendet.86
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Abbildung 3: Die Zweiteilung von Text Mining
Unter die statistischen Verfahren fallen die Differenzanalyse, Kookkurenzanalyse und Clusteranalyse. Differenzanalysen ordnen Text, durch sprachstatistische Gesetzmäßigkeiten und anhand verschiedener Kriterien, Merkmale zu. Die Kookku- renzanalyse sowie Clusteranalyse berechnen semantische Abhängigkeiten zwi- sehen Begriffen. Die musterbasierten Verfahren identifizieren innerhalb einer Auswähl von Texten allgemeingültige und relevante Muster. Die Texte sowie Textpassagen werden anhand zuvor definierter Muster identifiziert. Als Beispiel werden Merkmale, wie der Personen- oder Firmenname, angeführt. Diese Merkmale oder auch Attribute, werden mit Hilfe von Tags strukturiert, zum Beispiel: <Vorname>, <Nachname> oder <Firmenname>. Im Anschluss an die Strukturierung von Text, können mit Text-Mining-Werkzeugen Anfragen gestartet werden.87 Diese vorgeschaltete Datenvorverarbeitung und Strukturierung ermöglicht das Analysieren des Textes, ohne eine menschliche Interpretation.88
4.3 Übersicht der Methoden
Text Mining ist keine alleinstehende Methode. Die verschiedenen Verfahren, die die Extrahierung beschreiben, wurden in Kapitel 4.2 dargestellt. Daneben Stehen eine Vielzahl von Methoden oder auch Werkzeugen, die unter den Begriff Text Mining fallen.89 Daher kann im Rahmen dieser Arbeit keine umfassende Darstellung dieser erfolgen.
Nach Hippner und Rentzmann werden die Techniken von Text Mining grob in vier Forschungsgebiete unterteilt: Natural Language Processing (NLP), Information Extraction, Information Retrieval und Künstliche Intelligenz.90
Grobelnik und Mladenic sowie Hotho u.a. gehen von einem interdisziplinären Ansatz aus und beschreiben als Inhalte von Text Mining: Maschinelles Lernen, Data Mining, Statistik und statistisches Lernen, NLP sowie Information Retrieval.91
Miner u.a. schließen sich dem interdisziplinären Ansatz an und stellen in dem VennDiagramm in Abbildung 4 die insgesamt sieben Anwendungsbereiche des Text Mining dar. Diese sind im zentralen blaugefärbten Kreis fett dargestellt.92
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung nach Miner, G. u.a. (2012), s. 31.
Abbildung 4: Venn-Diagramm zur Unterteilung in sechs Gebiete
Im Venn-Diagramm sind neben der Oberkategorie Text Mining, die Bereiche Computer Linguistik, Bibliotheks- und Informationstechnik, Datenbanken, Data Mining, Artificial Intelligence sowie Machine Learning und Statistik in Ovalen dargestellt. Durch die Überlappung wird deutlich, dass alle sechs Gebiete zwar thematische Überschneidungen haben, aber auch ohne den Begriff Text Mining bestehen können. Die Schaffung dieses Gebiets sorgt lediglich dafür, dass sie als Teil-Disziplinen zusammengefasst werden.93
Die unterschiedlichen Auffassungen des Inhalts von Text Mining (siehe Definitionen in Kapitel 4.1.1), bzw. seinem Ursprung, Stehen erst recht für seine Interdisziplinarität als solches. Dies wird zudem anhand der Anwendungsgebiete deutlich. Es kommen neben den verschiedenen gewollten Startszenarien,94 auch verschiedene Branchen, wie Naturwissenschaften,95 Informationswissenschaften,96 Medizin, öffentlichkeitsarbeit, Marketing oder Finanz- und Rechtswissenschaften,97 zum Einsatz.
4.4 Prozess
Für die Anwendung von Text Mining existieren verschiedene Prozessmodelle. So sieht Visa einen sehr kompakten Prozess, bestehend aus einer Datenvorverarbei- tung, der Zusammenfassung und einer Kodierung. Hierbei muss jeder Prozessschritt auf das Zwischenergebnis des vorherigen Prozessschrittes zurückgreifen.98
Sullivan sieht den Prozess ausformulierter und unterteilt ihn in vier Schritte. Diese sind in Abbildung 5 dargestellt und beinhalten die Suche, Vorverarbeitung, Bewertung und Extrahierung bzw. Mustererkennung.99 Auf der linken Seite befinden sich die Prozessschritte, während sich auf der rechten Seite die dort eingesetzten Technologien befinden.
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung nach Sullivan, D. (2001), s. 324.
Abbildung 5: Text-Mmmg-Prozess
Der Prozess von Sullivan erscheint am relevantesten für die Praxis und wird daher als Grundlage für die Einordnung von Text-Mining-Methoden in den nachfolgenden Unterkapiteln gewählt und weiter beschrieben.
4.4.1 Suche
Im ersten Schritt des Prozesses erfolgt die Suche.100 Hierbei sollen aus einer großen Menge von Dokumenten, durch eine eingrenzende Benutzeranfrage, ein Teil von relevanten Dokumenten zurückgeliefert werden. Genutzt wird das Information Ret- rievai oder auch die Volltextsuche.101 Es wird keine Struktur im Datenmaterial beno- tigt. Die Hauptaufgabe ist es Dokumente aufzufinden, die Antworten auf eine konkrete Fragestellung bieten könnten. Der Prozess begünstigt jedoch nur das Auffinden von Dokumenten. Die Beantwortung der Fragestellung ist ein Nebenziel des Anfragenden.102 Manninger schließt sich dem an und versteht unter Information Ret- rievai, das Auffinden von Dokumenten unstrukturierter Natur, die einen Informationsbedarf befriedigen.103 Konkret werden anhand von definierten Suchbegriffen Dokumente aus einem großen Datenbestand herausgefiltert.104 Das Information Retrieval leistet bei der Zielerreichung des Prozesses einen entscheidenden Beitrag, da Metadaten über die einzelnen Dokumente erzeugt werden.105
Historisch gesehen ist diese Methode entstanden, um das (Wieder-)auffinden von wissenschaftlicher Literatur zu verbessern. Dies macht auch die Definition von Salton und McGill deutlich. Demnach ist Information Retrieval die Repräsentation, Speicherung, Organisation und der Zugriff auf den Informationsbedarf.106 Information Retrieval besitzt demnach zwei Aspekte, zum einen die Konstruktion eines Indexes für alle möglichen Dokumente und zum anderen das Abrufen dieses Indexes. Für die Analyse, der in Frage kommenden Texte, werden alle Fachbegriffe inklusive ihrer Position im Text ermittelt und in einem Index gespeichert.107 Das Ziel der Speicherung der Begriffe in einem sogenannten Schlagwortverzeichnis, ist die Information in welchem Dokument und in welcher Textstelle sie Vorkommen, um schnellere AntWortzeiten zu generieren.108 Die Suchanfrage gibt die Dokumente jedoch unverarbeitet aus, d.h. es ist dem Suchanfragenden nicht ohne weiteres möglich, alle Informationen ohne weitere Analyse aufzunehmen.109
Da auch unscharfe Suchbegriffe Vorkommen können, muss die Suche in der Lage sein auch die Flexion eines Terms zu entdecken. Hierfür werden Techniken der Da- tenvorverarbeitungsphase verwendet (siehe Kapitel 4.4.2).110
4.4.2 Datenvorverarbeitung
Trotz der Vorsortierung durch das Information Retrieval Stehen für den Benutzer noch zu viele Dokumente für seine Anfrage zur Verfügung. Daher sind Werkzeuge zur Erkennung von Strukturen in Text und Möglichkeiten zur Informationsextrahierung notwendig.
Hierfür können Techniken des NLP zum Einsatz kommen. Dies ist nach Manning und Schütze der Oberbegriff für die Suche nach Mustern in Sprache, die in Textform vorliegt.111 Außerdem ist sie die Fähigkeit von Computerprogrammen, menschliche Sprache, egal ob geschrieben oder gesprochen, zu verstehen. Eine möglichst strukturierte Sprache erleichtert der Software eine Erkennung und das eindeutige Verstehen. Die menschliche Sprache ist jedoch nicht immer objektiv, sondern zum Beispiel durch eine soziale oder regionale Komponente beeinflusst.112 Nach Kao und Poteet ist hierbei der Kern wer hat was, von wem, wann, wo, wie und warum durchgeführt.113
Zunächst erfolgt als erster notwendiger Schritt des NLP eine Tokenization bzw. To- kenisierung.114 Dabei wird der Text in einzelne Token unterteilt. Wobei Token nicht für das Wort, sondern für eine Instanz einer Folge von Zeichen in einem bestimmten Dokument steht.115 Manning U.a. geben hierfür folgendes Beispiel:
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung nach Manning, c. D. u.a. (2009), s. 59. Tabelle 3: Beispiel für Tokenisierung
In Tabelle 3 wird deutlich, wie einzelne Satzstücke eingeteilt und Satzzeichen entfernt werden.116 Ein hingegen nicht-triviales Beispiel für die Tokenisierung wäre ein
Apostroph im Nachnamen oder die Abkürzung ?Dr.“, die ohne ihre Interpunktion nicht den vollen Sinn ergibt.117
Anschließend erfolgt das Entfernen von sogenannten Stoppwörtern. Dies beinhaltet Wörter oder Wortteile, die für die Analyse keine Bedeutung besitzen.118 Dies sind Konjunktionen, Präpositionen oder Artikel. Solche Stoppwörter werden zum Beispiel bei der Eingabe in Suchmaschinen herausgefiltert.119 Ein Ansatz zur Identifikation der Stoppwörter sind die Messung der Häufigkeit. So werden besonders häufige120 oder auch besonders seltene Wörter in eine Stoppwortliste aufgenommen.121 Teilweise können auch bereits vordefinierte Listen herangezogen werden.122 Durch die Reduzierung der Stoppwörter wird die inhaltliche Qualität erhöht und der Analyseaufwand reduziert.123
Nach der Reduktion des Datenmaterials kann eine Erweiterung erfolgen. Dies geschieht durch sogenanntes Part-of-speech-Tagging (POS-Tagging).124 Hierbei erfolgt die Vergabe von Wortarten (zum Beispiel Substantiv, Adjektiv oder Verb) je Token.125 Ein Beispiel wäre das Wort ?kreativ“, dies fällt demnach unter die Wortart Adjektiv.126
Das Tagging kann Namen von Organisationen, Orten oder Personen leichter herausfiltern und entsprechend untersuchen.127 Allerdings können auch doppeldeutige Wörter auftreten, die zum Beispiel als Adjektiv und Verb eingestuft werden kön- nen.128 Nach Jurafsky und Martin können regelbasierte Tagger auf Basis von Lexika oder manuell erstellten Datenbanken bei dem Prozess unterstützen.129
Danach werden diese Wörter auf Ihren Wortstamm zurückgeführt und mit Markié- rungen versehen, dies erfolgt entweder beim stemming oder der Lemmatisierung.
Durch die Markierungen werden den Wörtern Wortarten zugeordnet sowie Parser, die die Wortstellung in einem Satz, bestehend aus Subjekt, Prädikat und Objekt, ermitteln. Diesen Vorgang nennt man Parsing. Die Erfassung der Wortarten erfolgt durch den Zugriff auf Lexika.130 Abschließend erfolgt eine semantische Analyse zur bedeutungsabhängigen Zerlegung von Texten.131 Hierfür existieren vollautomati- sehe Verfahren. Wauschkuhn hat 1996 bereits mit seinem Werkzeug eine Abdeckung von 85,7 Prozent in deutschsprachigen Sätzen erreichen können.132
Bei der Lemmatisierung ist das Ziel, Verben auf ihre Grundform und Nomen auf die singuläre Form zu bringen.133 Der Vorteil dabei ist, dass bei der Suchabfrage keine Wortformen beachtet werden müssen und generell eine niedrigere Anzahl an Indexeinträgen generiert werden muss.134
Auch beim stemming wird das Wort auf einen Wortstamm reduziert.135 Nach Kuhlen gibt es beim stemming folgende Ausprägungen der Rückführung auf die stammform: die lexikografische Grundform, die formale Grundform, also die Form wie sie in einem Wörterbuch zu finden ist, die Form bei der die Flexionsendungen abgetrennt werden und die Stammform nach linguistischen Prinzipien.136 Das Ziel der Reduktion ist die Verbesserung der Abfrageergebnisse.137 Dies wird erreicht, durch das Streichen des angehängten ?s“ bei der Pluralform.138 Der Unterschied zwischen dem Stemming und der Lemmatisierung verdeutlicht Porter. Demnach wandelt Lemmat¡- sierung Nomen in die singuläre Form und Verben in die Grundform um. Das Stern- ming wiederum reduziert alle Wörter auf den gleichen stamm.139 Nach Kettunen ?.a. sind die Unterschiede in der Performance der beiden Verfahren statistisch nicht sig- nifikant.140
4.4.3 Bewertung und Selektion
Im Anschluss an die Suche, Reduktion und die sprachliche Erkennung der Dokumente, können je nach Anforderungen des Anfragenden die Dokumente in Gruppen eingeteilt werden. Hierfür gibt es zwei Optionen. Es können Dokumente in Themengebiete klassifiziert oder nach ähnlichen Dokumenten geclustert werden. Das Ziel dieser Methoden, ist ein verbessertes Suchergebnis.
Nach Renz und Franke können Dokumentenmassen durch das Einteilen in Klassen (siehe Kapitel 4.4.3.1), Cluster (siehe Kapitel 4.4.3.2) oder durch Informationsextraktion bzw. Zusammenfassung (siehe Kapitel 4.4.4) besser analysiert werden.141
4.4.3.1 Klassifikation
Die Klassifikation erlaubt es, dass Dokumente in zwei oder mehrere definierte Klassen unterteilt werden. Die Klassen können auch eine hierarchische Struktur aufwei- sen.142 Die Klassifikation erfolgt grundsätzlich nach gewissen Kriterien, die ein Dokument für die entsprechende Klasse erfüllen muss.143 Daher spricht man auch vom überwachtem Lernen.144 Hierdurch können zum Beispiel Nachrichtentexte ihrem inhaltlichen Schwerpunkt zugeordnet werden.145
Die Klassifikation unterscheidet sich grundsätzlich in eine binäre oder eine multiple Klassifikation. Bei einer binären Klassifikation kann zum Beispiel eine Unterscheidung von E-Mails in Spam und kein Spam erfolgen.146 Ein Beispiel für die multiple Klassifikation von Dokumenten wäre die Verteilung in vordefinierte Sachgebiete, wie zum Beispiel die Wissenschaften einer Literaturdatenbank.147
Klassen müssen manuell erstellt werden. Hierfür sind jeweils Regeln zu definie- ren.148 Solche Regeln werden in Entscheidungsbäumen visualisiert. Sie enthalten durch eine Vielzahl von Termen spezifische Wenn-Dann-Regeln.149 Bei einer breiten
Masse kann der Pflegeaufwand hoch werden. Daher bietet sich der Einsatz von statistischen Methoden an.150 Als Grundlage kommt die “Support Vector Machine“ zum Einsatz.151 Diese nutzt manuell klassifizierte Beispieldokumente, um die Regeln zu erlernen und zu analysieren. Durch diesen Schritt können zukünftig automatische Klassifizierungen vorgenommen werden.152
Voraussetzung für die Dokumentenklassifikation ist eine abgeschlossene Datenvor- Verarbeitungsphase und die Vergabe von Metadaten. Anschließend können Klassifikationsalgorithmen wie der Naive Bayes oder die logistische Regression angewendet werden. Dokumentenmerkmale, wie Titel, Dateiname, Größe oder automatisch generierte Stichwörter, werden als Informationsquelle genutzt.153
Ein Beispiel für eine Klassifikation gibt Albertz, der aus der Klassifikation von Bildmaterial in verschiedene Klassen berichtet. In nachfolgender Abbildung 6 ist die Grundannahme visualisiert, die die Objekte als trennbare Punkthaufen darstellen.154
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Albertz, J. (1991), s. 141.
Abbildung 6: Grundannahme der Klassifikation
In jeder der Klassen, durch nahe beieinander liegende rote Punkte gekennzeichnet, werden im Anwendungsfall Dokumente gefasst.
4.4.3.2 Clustering-Verfahren
Das Clustering Oder die Clusteranalyse umfasst nach Miner u.a. den Prozess einer automatischen Erkennung von Ähnlichkeiten sowie Unähnlichkeiten von Objekten und der daraus entstehenden Gruppierung in sogenannten Clustern.155 Beim Clustering spricht man von einem unüberwachtem Lernen, da keine Trainingsbeispiele wie bei der Klassifikation (siehe Kapitel 4.4.3.1) benötigt werden. Ziel der Anwendung von Clustering-Algorithmen ist die Identifikation von ähnlichen Dokumenten 0- der Wörtern sowie die Einteilung in bisher nicht bekannte Cluster bzw. Gruppen.156 Die Regel bei der Bildung von Clustern ist, dass Datensätze innerhalb eines Clusters möglichst viele und Datensätze außerhalb eines Clusters möglichst wenige Ähnlichkeiten aufweisen.157 Damit geht die Grundidee der Homogenität von Gruppen ein- her.158 Schendera definiert die Ähnlichkeit anhand des Ähnlichkeitswertes, der umso höher oder niedriger ist.159 Des Weiteren fällt unter das Clustern auch zwangsläufig das Segmentieren, da ein Gruppieren auch gleichzeitig eine Segmentierung dar- stellt.160
Im Clustering-Verfahren von Dokumenten können Terme oder Konzepte, einschließ- lieh ihrer Gewichtung, genutzt werden. Hierbei muss durch zusätzliche Kriterien eine Charakterisierung erfolgen.161 Dokumente können mehreren Clustern angehören, dies nennt man überlappende Einteilung. Sind alle Dokumente auf Cluster verteilt, spricht man von einer vollständigen Verteilung. Ein Zentroid ist das häufigste Eie- ment eines Clusters und wird durch einen Mittelwert der Dokumente errechnet.162
Um Cluster bilden zu können eignen sich verschiedene Methoden. Diese werden grob in zwei Kategorien unterteilt, die partitionierenden sowie die hierarchischen Me- thoden.163
Ein partitionierendes Cluster ist flach. Ein Dokument wird nur einem Cluster Zugeordnet. Das Cluster beschreibt ein Thema, das einer bestimmte Menge an Merkmalen zugeordnet werden kann, die alle Dokumente in diesem Cluster gemeinsam ha- ben.164 Wie in Abbildung 7 dargestellt werden ähnliche Dokumente (als blaue Punkte dargestellt) in einem Cluster (dünner Kreis) gruppiert.
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung nach Dörre, J. u.a. (2004), s. 493.
Abbildung 7: Binäres Clustering
Ein hierarchisches Cluster gruppiert Dokumente nach ihrer Ähnlichkeit innerhalb einer Baumstruktur (siehe Abbildung 8). Dadurch wird erreicht, dass Dokumente einer Vielzahl an Clustern hierarchisch angehören können. Die Dokumente werden nicht in flache, sondern in größere Cluster gruppiert.165 Im ersten Schritt wird für alle Dokumente ein Cluster gebildet. Anschließend werden zwei Cluster darunter gebildet, die nach bestimmten Kriterien gebildet werden. Dieser Vorgang wird wiederholt, bis jedes Dokument einem Cluster zugeordnet ist und die Abfolge der Cluster fest- steht.166
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung nach Dörre, J. u.a. (2004), s. 493.
Abbildung 8: Hierarchisches Clustering
Der Unterschied zur Self-Organization Map (SOM) oder auch Kohonen-Karte167 liegt an der Visualisierung. Die SOM erzeugt eine automatisierte Darstellung der Clus- ter.168 Die entstehende Karte ist, wie auf Abbildung 9 zu sehen, dreidimensional dargestellt und nach Themen sortiert. Umso höher ein Cluster platziert ist, desto höher ist die Anzahl der dazu gehörenden Dokumente. Die themenorientierte, visuelle AnOrdnung sorgt für eine einfache Anzeige der gesuchten Texte.169
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Feiden, c. (2006), s. 293.
Abbildung 9: Self-Organization Map
Die Visualisierung ist dem menschlichen Gehirn nachempfunden.170 Einige Themenbereiche sind beim Menschen auf der Hirnrinde regional angeordnet. Die SOM empfindet dieses Vorgehen nach und platziert daher wichtige Merkmale regional.171 Dokumente, die Ähnlichkeiten aufweisen, befinden sich auf der Karte in einem kürzeren Abstand zueinander.172 Die SOM ist in der Lage wichtige Kriterien zu bestimmen und erstellt anhand dieser Kriterien die Cluster. Dokumente besitzen berechnete Vektoren, deren Ähnlichkeit geprüft werden. Sobald neue Dokumente dazu kommen, wird eine Gewichtsanpassung vorgenommen und die Dokumente ggf. neu verteilt.173
Wichtig ist nach Litz, dass Clusterverfahren und Algorithmen aufeinander abgestimmt werden, da die unterschiedlichen Verfahren nicht immer die identischen Ergebnisse liefern und daher nicht das korrekte Cluster gebildet werden kann.174
4.4.4 Informationsextraktion
Die Informationsextraktion ermöglicht das Vergleichen von Dokumenten, üblicherweise eignen sich hierfür Wortformen des Textinhalts. Die Relevanz dieser Wortformen wird durch statistische Auffälligkeiten eingestuft.175
Abbildung in dieser Leseprobe nicht enthalten
Bei der großen Anzahl an Text ist es wichtig, nur markante Eigenschaften zu extra- hieren.176 Durch den Einsatz von linguistischen Verfahren kann der Aufwand zwar beschränkt werden,177 es bieten sich jedoch zur weiteren Reduktion die in Abbildung 10 dargestellten Kriterien an:178
Quelle: Eigene Darstellung nach Heyer, G. u.a. (2006), s. 222f.
Abbildung 10: Markante Kriterien zur Informationsextraktion
Die statistische Auffälligkeit besagt, dass die extrahierten Merkmale häufiger auftreten als in durchschnittlichen Texten. Die Auswahl erfolgt anhand einer Differenzanalyse. Unter Bekanntheit versteht man, dass die extrahierte Wortform eine gewisse Frequenz im Verhältnis zur allgemeinen Sprache besitzt. Die Mindesthäufigkeit setzt voraus, dass eine gewisse Anzahl der Merkmale im Datenmaterial vorkommt. Die Wortart bestimmt eine Vorgabe der Begriffe. So ist es deutlich sinnvoller sich auf Nomina zu beschränken, anstatt auf Adjektive und Verben, die in verschiedenen Kontexten angewendet werden können. Eine praktische Regel ist, sich auf Worte mit Großbuchstaben zu beschränken. Die Grundform beschreibt das Vorhandensein der Wörter im Infinitiv. Bei dem Prozess entstehen viele Beschränkungen, die auf Sinn- haftigkeit überprüft werden müssen.179
[...]
1 Naisbitt, J. (1982), o.s.
2 Vgl. Heyer, G. u.a. (2006), s. 1.
3 Vgl. IDC (2012), o.s.
4 Vgl. Bundesministerium des Innern (2014), s. 25.
5 Vgl. Bundesministerium des Innern (O.J.), 0. s.
6 Vgl. Bundestag (2013), § 9.
7 Vgl. Bundesministerium des Innern (2013), s. 17.
8 Kleiner, T. (2015), s. 1.
9 Vgl. Walsch, T. (2017), s. 32.
10 Vgl. Corsten, H. (1998), s. 42f.
11 Vgl. Eckardt, c., Bergmann, R. (2010), s. 45.
12 Vgl. Bradner, s. (1997), s. if.; Beims, M. (2010), s. 143.
13 Vgl. Hedeman, B., Seegers, R. (2010), s. 75.
14 Vgl. Hansen, H. u.a. (2015), s. 334.
15 Vgl. Gelrhos, M. (2016), s. 19.
16 Vgl. Ruf, w., Fittkau, T. (2008), s. 116.
17 Vgl. Project Management Institute (2017), s. 195ff.
18 Vgl. Gantt, H. (1913), s. 128.
19 Vgl. Bundesministerium des Innern u.a. (2014), s. 2.
20 Vgl. Bundesministenum des Innern u.a. (2014), s. 19.
21 Vgl. Bundesministerium des Innern u.a. (2014), s. 1 ff.
22 Vgl. Bundesministerium des Innern (2014), s. 25.
23 Vgl. Bundesministerium des Innern (2014), s. 8f.
24 Vgl. Bundestag (2013), §6.
25 Vgl. Keller-Herder, J., Schallbruch, M. (2014), §6, Rn. 10-12.
26 Vgl. Bundestag (2017), § 1.
27 Vgl. Bundesrepublik Deutschland (2009), § 1.
28 Vgl. IT-Planungsrat (2018), o.s.
29 Vgl. Google Trends (O.J.), o.s.
30 Vgl. Chen, H. u.a. (2012), s. 1166.
31 Vgl. Bange, c. (2006), s. 72.
32 Vgl. Felden, c. (2006), s. 284.
33 Vgl. Martin, w. (2012), s. 17.
34 Vgl. Weber, M., Urbanski, J. (2012), s. 7.
35 Vgl. Laudon, K. u.a. (2016), s. 285.
36 Vgl. Weber, M., Urbanski, J. (2012), s. 21.
37 Vgl. Weber, M., Urbanski, J. (2012), s. 1.
38 Vgl. Weber, M., Urbanski, J. (2012), s. 7.
39 Vgl. Jacoby, J. (1977), s. 569.
40 Vgl. Hoffmann, M. (2004), o.s.
41 Vgl. Mehler, A., Wolff, c. (2005), s. 1.
42 Vgl. Martin, w. (1998), s. 418.
43 Vgl. Hlppner, H., Rentzmann, R. (2006a), s. 287.
44 Vgl. Heyer, G. u.a. (2006), s. 3.
45 Vgl. Dörre, J. u.a. (2001b), s. 425.
46 Vgl. Steinecke, u., straub, w. (2010), s. 92.
47 Vgl. Russom, p. (2007a), s. 11.
48 Vgl. Herschel, R. T., Jones, N. E. (2005), s. 47.
49 Vgl. Martin, w. (2012), s. 16.
50 Vgl. Heyer, G. u.a. (2006), s. 8.
51 Vgl. Gluchowski, p. u.a. (2008), s. 320.
52 Vgl. Shapiro, s. c. (1987), s. 291.
53 Vgl. Krogh, G. V., Venzln, M. (1995), s. 420.
54 Vgl. Feldman, R., Dagan, I. (1995), s. 112.
55 Vgl. Hahn, u., Schnattinger, K. (1998), s. 1.
56 Vgl. Hearst, M. A. (1999), s. 3.
57 Vgl. Kodratoff, Y. (1999), s. 1.
58 Vgl. Loslewlcz, p. u.a. (2000), s. 99.
59 Vgl. Tan, A.-H. (1999), s. 1.
60 Vgl. Frawley, w. J.u.a. (1991), s. 58.
61 Vgl. Feldman, R., Dagan, I. (1995), s. 112.
62 Vgl. Hearst, M. A. (1999), s. 5; Behme, w., Multhaupt, M. (1999), s. 107.
63 Vgl. Mehler, A., Wolff, c. (2005), s. 1f.
64 Vgl. Felden, c. (2006), s. 284.
65 Vgl. Heyer, G. u.a. (2006), s. 3f.
66 Vgl. Feldman, R., Sanger, J. (2007), s. 1.
67 Vgl. Hearst, M. A. (1999), s. 43.
68 Vgl. Aggarwal, c. c., Zhai, c. (2012), s. 2.
69 Vgl. Cabena, p.u.a. (1997), s. 15.
70 Vgl. Chen, M. s.u.a. (1996), s. 866.
71 Vgl. Frawley, w. J.u.a. (1991), s. 58.
72 Vgl. Fayyad, u. M. u.a. (1996), s. 6.
73 Vgl. Feldman, R., Sanger, J. (2007), s. 1.
74 Vgl. Hearst, M. A. (1999), s. 5; Dörre, J. u.a. (2001a), s. 467f.; Bohnacker, u. u.a. (2002), s. 438; Renz, I., Franke, J. (2003), s. 1; Fan, w. u.a. (2006), s' 78; Bose, R. (2009), s. 156; Hansen, H. u.a. (2015), s. 294.
75 Vgl. Clark, J. (2013), s. 5.
76 Vgl. Heyer, G. u.a. (2006), s. 1.
77 Vgl. Opic, M. u.a. (2012), s. 198.
78 Vgl. Russom, p. (2007b), s. 2; Baars, H., Kemper, H.-G. (2008), s. 132.
79 Vgl. Kemper, H.-G. u.a. (2010), s. 12.
80 Vgl. Behme, w., Multhaupt, M. (1999), s. 107.
81 Vgl. Liddy, E. D. (2000), s. 13.
82 Vgl. Meier, M., Beckh, M. (2000), s. 165; Rajman, M., Veselý, M. (2004), s. 7.
83 Vgl. Cooley, R. u.a. (1997), s. 558.
84 Vgl. Mehler, A., Wolff, c. (2005), s. 5.
85 Vgl. Sharafl, A. (2013), s. 79f.
86 Vgl. Shi, G., Kong, Y. (2009), s. 4168.
87 Vgl. Heyer, G. u.a. (2006), s. 4f.
88 Vgl. Hippner, H., Rentzmann, R. (2006a), s. 287.
89 Vgl. Clark, J. (2013), s. 10ff.
90 Vgl. Hippner, H., Rentzmann, R. (2006a), s. 287.
91 Vgl. Hotho, A. u.a. (2005), s. 19; Grobelnik, M., Mladenic, D. (2005), s. 135.
92 Vgl. Miner, G.u.a. (2012), s. 31.
93 Vgl. Miner, G.u.a. (2012), s. 31.
94 Vgl. Miner, G.u.a. (2012), s. 32.
95 Vgl. Ananiadou, s., McNaught, J. (2006), s. 1.
96 Vgl. Miner, G.u.a. (2012), s 31.
97 7Vgl. Nisbet, R.u.a. (2009), s. 174.
98 Vgl. Visa, A. (2001), s. 2f.
99 Vgl. Sullivan, D. (2001), s. 324.
100 Vgl. Sullivan, D. (2001), s. 341.
101 Vgl. Dörre, J. u.a. (2001b), s. 425.
102 Vgl. Hearst, M. A. (1999), s. 3.
103 Vgl. Manning, c. D.u.a. (2009), s. 1.
104 Vgl. Ferber, R. (2003), s. 18.
105 Vgl. Feiden, c. (2006), s. 285f.
106 Vgl. Saltón, G., McGill, M. J. (1983), s. 1.
107 Vgl. Dörre, J. u.a. (2001b), s. 425.
108 Vgl. Dörre, J. u.a. (2004), s. 479.
109 Vgl. Sullivan, D. (2001), s. 341.
110 Vgl. Evert, s., Fltschen, A. (2001), s. 374.
111 Vgl. Manning, c. D., Schütze, H. (1999), s. 4.
112 Vgl. Zschelle, F. (2016), s. 64.
113 Vgl. Kao, A., Poteet, s. R. (2006), s. 1.
114 Vgl. Webster, J. J., Kit, c. (1992), s. 1106.
115 Vgl. Manning, c. D.u.a. (2009), s. 59.
116 Vgl. Manning, c. D.u.a. (2009), s. 59.
117 Vgl. Sharafi, A. (2013), s. 86.
118 Vgl. Hotho, A. u.a. (2005), s. 25.
119 Vgl. Lawrence, G. (1998), s. 99.
120 Vgl. Manning, c. D.u.a. (2009), s. 27.
121 Vgl. Fox, c. (1992), s. 113.
122 Vgl. Baeza-Yates, R., Ribeiro, B. d. (1999), s. 167.
123 Vgl. Sharafi, ?. (2013), s. 87.
124 Vgl. Weiss, s. M.u.a. (2005), s. 37.
125 Vgl. Feldman, R., Sanger, J. (2007), s. 60.
126 Vg. Tanawongsuwan, P. (2010), s. 353.
127 Vgl. Weiss, s. M.u.a. (2005), s! 37.
128 Vgl. Heyer, G. u.a. (2006), s. 127.
129 Vgl. Jurafsky, D., Martin, J. H. (2009), s. 169.
130 Vgl. Damasceni, A. T. (2003), s. 20.
131 Vgl. Feldman, R., Sanger, J. (2007), s. 60f.
132 Vgl. Wauschkuhn, ?. (1996), s. 357.
133 Vgl. Hotho, ?. ?.?. (2005), s. 26.
134 Vgl. Korenius, T. u.a. (2004), s. 625.
135 Vgl. Lovins, J. ?. (1968), s. 22.
136 Vgl. Kuhlen, R. (1977), s. 67.
137 Vgl. Kraalj, w., Pohlmann, R. (1996), s. 40.
138 Vgl. Vickery, ?., Vickery, A. (1992), s. 262.
139 Vgl. Porter, M. F. (1980), s. 131f.
140 Vgl. Kettunen, K. u.a. (2005), s. 484.
141 Vgl. Renz, I., Franke, J. (2003), s. 1.
142 Vgl. Ferber, R. (2003), s. 47.
143 Vgl. Lanqulllon, c. (2001), s. 23.
144 Vgl. Dörre, J. u.a. (2001b), s. 437f.
145 Vgl. Fan, w. u.a. (2006), s. 76f.
146 Vgl. Lanqulllon, c. (2001), s. 2.
147 Vgl. Ferber, R. (2003), s. 50f.
148 Vgl. Felden, c. (2006), s. 264.
149 Vgl. Sullivan, D. (2001), s. 448.
150 Vgl. Sebastian¡, F. (2002), s. 30.
151 Vgl. Sebastian¡, F. (2002), s. 30f.
152 Vgl. Joachims, T. (1998), s. 137.
153 Vgl. Feldman, R., Sänger, J. (2007), s. 64ff.
154 Vgl. Albertz, J. (1991), s. 141.
155 Vgl. Miner, G.u.a. (2012), s. 959ff.
156 Vgl. Gordon, A. D. (1999), s. 183ff.
157 Vgl. Bacher, J. u.a. (2010), s. 16.
158 Vgl. Sodeur, w. (1974), á 118-124.
159 Vgl. Schendera, c. F. (2010), s. 3.
160 Vgl. Schendera, c. F. (2010), s. V.
161 Vgl. Rasmussen, E. (1992), s. 420.
162 Vgl. Saltón, G. (1989), s. 341.
163 Vgl. Chamoni, p., Budde, c. (1997), s. 21.
164 Vgl. Dörre, J. u.a. (2004), s. 493.
165 Vgl. Dörre, J. u.a. (2004), s. 494.
166 Vgl. Chen, J. u.a. (2000), s. 251f.
167 Vgl. Thiran, p. (1999), s. 145.
168 Vgl. Sullivan, D. (2001), s. 202f.
169 Vgl. Felden, c. (2006), s. 293.
170 Vgl. Miikkulainen, R. (1993), s. 114.
171 Vgl. Kohonen, T. (2001), s. 106.
172 Vgl. Merki, D., Räuber, Á. (2000), s. 102.
173 Vgl. Miikkulainen, R. (1993), s. 116.
174 Vgl. Litz, H. p. (2000), s. 420ff.
175 Vgl. Heyer, G. u.a. (2006), s. 220.
176 Vgl. Heyer, G. u.a. (2006), s. 222.
177 Vgl. Renz, I., Franke, J. (2003), s. 4.
178 Vgl. Heyer, G. u.a. (2006), s. 222f.
179 Vgl. Heyer, G. u.a. (2006), s. 222f.
- Quote paper
- M. Sc. Fabian Werk (Author), 2018, Text Mining in der elektronischen Postverteilung einer Bundesbehörde, Munich, GRIN Verlag, https://www.grin.com/document/437681
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.