Bisher unbekanntes Wissen aus unstrukturierten Texten zu extrahieren ist Ziel von Text Mining. Es wird oft als Methode, Verfahren, Konzept oder Werkzeug bezeichnet. In sogenannten unstrukturierten Texten stößt man auf bisher nicht bekannte Inhalte, die durch geeignete Methoden erforscht werden können. Das Nutzen dieser Methoden wird daher auch zu Maßnahmen des Wissensmanagements gefasst.

Eine Statistik der International Data Corporation (IDC) besagt, dass Unternehmen weiterhin mit dem Wachstum von Daten mit unstrukturiertem Inhalt rechnen. Sie zählen zu den am stärksten wachsenden Datenquellen.

In behördlichen Einrichtungen ist es nicht unüblich unstrukturierte Dokumente digital zu verwalten. Der Plan der Bundesregierung ist bis zum Jahr 2020 in allen Bundesverwaltungen Dokumente bzw. Akten in elektronischer Form zu führen. Die Optimierung von Verwaltungsabläufen ist im Rahmen dieser Digitalisierungsinitiative nicht nur sinnvoll, sondern gleichzeitig auch eine gesetzliche Vorgabe im Rahmen des E-Government-Gesetzes (EGovG).

Man sollte an erster Stelle, an der Dokumente mit dem Unternehmen zusammentreffen, also der Poststelle, beginnen. So sagt auch Thomas Kleiner, CEO des Unternehmens iXenso, in einem Interview mit dem ECMguide: „Irrläufer und schlecht lesbare oder falsch interpretierte Dokumente sorgen nicht nur für Frust beim Empfänger, sondern verschlechtern auch die Qualität der Prozesse“. Es wird deutlich, welche Bedeutung der Posteingang für ein Unternehmen hat. Gerade für Behörden, bei denen ein Tätigwerden oftmals nur durch Anträge oder Anfragen begründet wird, ist dieses Problem enorm.

In dem Zusammenhang liest man immer wieder von Text Mining, das zur Lösung für automatisierte Postverteilung genutzt werden kann. Für die erfolgreiche Einführung einer solchen Technologie sind jedoch Erfolgsfaktoren zu identifizieren.

Hohe Investitionen in Digitalisierungsprojekte und Veränderungen von bewährten Prozessen werden in der Verwaltung eher schwergängig vorangetrieben. Daher wird mit dieser Thesis ein Grundstein für ein weiteres Vorgehen gelegt.

Excerpt

Inhalt

Abkürzungsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung
1.1 Themeneinführung
1.2 Aufbau der Arbeit
1.3 Ziele der Arbeit

2 Projektplanung
2.1 Strukturplanung
2.2 Zeitplanung

3 Politische und wissenschaftliche Relevanz
3.1 Politik
3.2 Wissenschaft

4 Stand der Forschung
4.1 Text Mining
4.1.1 Definition
4.1.2 Abgrenzung
4.2 Verfahrensarten
4.3 Übersicht der Methoden
4.4 Prozess
4.4.1 Suche
4.4.2 Datenvorverarbeitung
4.4.3 Bewertung und Selektion
4.4.3.1 Klassifikation
4.4.3.2 Clustering-Verfahren
4.4.4 Informationsextraktion
4.5 Praxis
4.5.1 Anwendungsgebiete
4.5.2 Postverteilung

5 Erhebung von Expertenwissen
5.1 Untersuchungsgegenstand
5.2 Forschungsdesign
5.3 Qualitative Datenerhebung
5.3.1 Interview-Leitfaden
5.3.2 Interviewpartner
5.3.3 Durchführung und Protokollierung
5.3.4 Analyse

6 Interpretation der Ergebnisse
6.1 Teilergebnis: Ist-Prozess
6.2 Teilergebnis: Qualität Ist-Prozess
6.3 Teilergebnis: Potential von Text Mining
6.4 Teilergebnis: Erfolgsfaktoren

7 Handlungsempfehlungen

8 Fazit
8.1 Kritische Würdigung
8.2 Zusammenfassung
8.3 Ausblick

Literaturverzeichnis

Anhang 1: Projektstrukturplan

Anhang 2: Gantt-Diagramm Teil 1

Anhang 3: Gantt-Diagramm Teil 2

Anhang 4: Datenschutzvereinbarung

Anhang 5: Gesprächsprotokoll 1

Anhang 6: Gesprächsprotokoll 2

Anhang 7: Gesprächsprotokoll 3

Anhang 8: Gesprächsprotokoll 4

Anhang 9: Gesprächsprotokoll 5

Anhang 10: Gesprächsprotokoll 6

Anhang 11: Kategoriensystem

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Business-Intelligence-Werkzeuge

Abbildung 2: Merkmale von Big Data

Abbildung 3: Die Zweiteilung von Text Mining

Abbildung 4: Venn-Diagramm zur Unterteilung in sechs Gebiete

Abbildung 5: Text-Mining-Prozess

Abbildung 6: Grundannahme der Klassifikation

Abbildung 7: Binäres Clustering

Abbildung 8: Hierarchisches Clustering

Abbildung 9: Self-Organization Map

Abbildung 10: Markante Kriterien zur Informationsextraktion

Abbildung 11: Forschungsdesign

Abbildung 12: Operationalisierung

Abbildung 13: Auswahl Interviewpartner

Abbildung 14: Ablauf der qualitativen Inhaltsanalyse

Abbildung 15: Kategorien-Schema

Abbildung 16: Auswertungs-Kodierungsschema

Abbildung 17: Ist-Prozess Postverteilung E-Mail Teil 1/2

Abbildung 18: Ist-Prozess Postverteilung E-Mail Teil 2/2

Abbildung 19: Ist-Prozess Postverteilung Papierpost Teil 1/6

Abbildung 20: Ist-Prozess Postverteilung Papierpost Teil 2/6

Abbildung 21: Ist-Prozess Postverteilung Papierpost Teil 3/6

Abbildung 22: Ist-Prozess Postverteilung Papierpost Teil 4/6

Abbildung 23: Ist-Prozess Postverteilung Papierpost Teil 5/6

Abbildung 24: Ist-Prozess Postverteilung Papierpost Teil 6/6

Abbildung 25: Graphische Darstellung der Expertenmeinungen

Abbildung 26: Induktive Kategorienbildung

Abbildung 27: Mind-Map der Erfolgsfaktoren

Abbildung 28: Abstrakte Darstellung des Verwaltungsablaufs

Tabellenverzeichnis

Tabelle 1: MoSCoW-Priorisierung

Tabelle 2: Darstellung der Zugriffe

Tabelle 3: Beispiel für Tokenisierung

Tabelle 4: Rechercheergebnis

Tabelle 5: Darstellung der Fragestellungen

Tabelle 6: Kapitelzuordnung der Schritte der Datenerhebung

Tabelle 7: Bewertung Interviewpartner

Tabelle 8: Kategorienzuordnung

Tabelle 9: BPMN Modellerläuterung

Tabelle 10: Quantifizierung der Eingangskanäle

Tabelle 11: Qualitätseinschätzung der Experten

Tabelle 12: Meinungen zum Text Mining

1 Einleitung

1.1 Themeneinführung

?Wir ertrinken in Information, aber wir hungern nach Wissen.“¹

Eine Statistik der International Data Corporation (IDC) besagt, dass Unternehmen weiterhin mit dem Wachstum von Daten mit unstrukturiertem Inhalt rechnen. Sie zählen zu den am stärksten wachsenden Datenquellen.³

In behördlichen Einrichtungen ist es nicht unüblich unstrukturierte Dokumente digital zu verwalten. Der Plan der Bundesregierung ist bis zum Jahr 2020 in allen BundesVerwaltungen Dokumente bzw. Akten in elektronischer Form zu führen.⁴ Die Optimierung von Verwaltungsabläufen ist im Rahmen dieser Digitalisierungsinitiative nicht nur sinnvoll,⁵ sondern gleichzeitig auch eine gesetzliche Vorgabe im Rahmen des E-Government-Gesetzes (EGovG).⁶

Man sollte an erster stelle, an der Dokumente mit dem Unternehmen zusammentreffen, also der Poststelle, beginnen.⁷ So sagt auch Thomas Kleiner, CEO des Unternehmens iXenso, in einem Interview mit dem ECMguide: ?Irrläufer und schlecht lesbare oder falsch interpretierte Dokumente sorgen nicht nur für Frust beim Empfänger, sondern verschlechtern auch die Qualität der Prozesse“.⁸ Es wird deutlich, welche Bedeutung der Posteingang für ein Unternehmen hat. Gerade für Behörden, bei denen ein Tätigwerden oftmals nur durch Anträge oder Anfragen begründet wird, ist dieses Problem enorm.

In dem Zusammenhang liest man immer wieder von Text Mining, das zur Lösung für automatisierte Postverteilung genutzt werden kann.⁹ Für die erfolgreiche Einführung einer solchen Technologie sind jedoch Erfolgsfaktoren zu identifizieren.¹⁰

Hohe Investitionen in Digitalisierungsprojekte und Veränderungen von bewährten Prozessen werden in der Verwaltung eher schwergängig vorangetrieben. Daher wird mit dieser Thesis ein Grundstein für ein weiteres Vorgehen gelegt.

1.2 Aufbau der Arbeit

Zunächst wird der Stand der Forschung von Text Mining, inklusive theoretischen Hintergründen und aktuellen Einsatzgebieten, vorgestellt. Anschließend wird eine Verbindung von Text Mining zur Postverteilung hergestellt. Im weiteren Verlauf wird die Methode aus der Management-Sicht betrachtet.

In Kapitel 5.1 werden Annahmen gebildet, die in eine zentrale Forschungsfrage zusammenlaufen. Die Fragestellung dient im weiteren Verlauf als Leitfaden für jegliche Ausarbeitungen. Um die Frage zu beantworten, werden Experteninterviews geführt und ausgewertet. Es wird ein Ist-Prozess der Postverteilung mit der Prozessmodellierungssprache Business Process Modelling Notation 2.0 (BPMN 2.0) modelliert. Des Weiteren werden Aspekte, die bei der Einführung einer solchen Technologie zu beachten sind, im Rahmen der Interviews erfragt und über eine qualitative Inhaltsanalyse ausgewertet. In Kapitel 7 werden Handlungsempfehlungen aus den Erfolgsfaktoren abgeleitet, die dem Management notwendige Schritte bei der Einführung einer solchen Technologie aufzeigen. Diese leiten sich aus den Punkten der quanta- tiven Datenerhebung ab.

1.3 Ziele der Arbeit

Die Projektziele stellen den Leitfaden des Projektes dar.¹¹ Das Ergebnis dieser Arbeit soll die Aufbereitung der theoretischen Grundlagen in einer verständlichen Formulierung, die Ableitung von Erfolgsfaktoren und das Erstellen von Handlungsempfehlungen für die Einführung einer solchen Technologie sein. Da das Management als Adressat dieser Arbeit gilt, werden keine intensiv technischen oder mathemati- sehen Ausführungen getroffen.

Da innerhalb dieser Arbeit das Thema nicht in vollem Umfang bearbeitet werden kann, ist eine Priorisierung erforderlich. Die nachfolgende Tabelle 1 zeigt eine Auflistung der Projektziele nach der MoSCoW-Methode:¹²

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung Tabelle 1: MoSCoW-Priorisierung

Aus der Methode lassen sich gewisse Priorisierungsstufen ableiten, die in Tabelle 1 in der linken Spalte dargestellt sind. Im Kontext mit den einzelnen Projektzielen, dargestellt auf der rechten Spalte, steht ?must have“ für: unbedingt erforderlich, ?should have“ für: sollte umgesetzt werden, ?could have“ für: kann umgesetzt werden und ?won’t have“ für: vorgemerkt für die Zukunft.¹³

2 Projektplanung

Ein Projekt ist kein dauerhaftes oder routinemäßiges Vorhaben und sollte daher immer individuell betrachtet werden. Es handelt sich um Tätigkeiten, die innerhalb eines Zeitrahmens anfallen. Der Zeitrahmen besitzt somit einen Anfangs- und einen Endzeitpunkt. Weitere Merkmale eines Projektes sind, dass Ressourcen finanzieller sowie personeller Art anfallen. Je nach Ziel und Bedeutung benötigen Projekte ein organisiertes Team und ein Vorgehensmodell.¹⁴

Eine Projektplanung ist von großer Bedeutung, da eine Entscheidung über einen Projektantrag durch die Entscheidungsträger nur mit notwendigen Informationen, unter anderem den Ressourcen, die das Projekt bindet, getroffen werden kann. Eine Planung kann insbesondere für die Leitung oder das mittlere Management die einzige Möglichkeit sein, Erfolg oder Misserfolg von Projekten zu messen oder zu steu- ern.¹⁵ Der nachfolgende Projektstrukturplan unterteilt das Gesamtprojekt in Abschnitte und quantifiziert die Arbeitsschritte. Anschließend werden die Abschnitte zur Visualisierung innerhalb eines Gantt-Diagramms dargestellt. Finanzielle Ressourcen werden bei der Darstellung nicht einbezogen, da ausschließlich interne Ressourcen verwendet und diese nicht verrechnet werden.

2.1 Strukturplanung

Der Projektstrukturplan gilt als Plan der Pläne, da er für eine grundlegende Struktur des Projektes sorgt.¹⁶ Die Abschnitte, die innerhalb des Projektes festgelegt werden, befinden sich auf der zweiten Ebene des Projektstrukturplans. Durch ihn wird eine Visualisierung der Projektphasen erreicht (siehe Anhang 1).¹⁷

2.2 Zeitplanung

Der nun entwickelte Projektstrukturplan gilt als Grundlage für die zeitliche Planung. Die Abschnitte werden in einem Gantt-Diagramm dargestellt (siehe Anhang 2 und 3). Ziel des Gantt-Diagrammes ist eine visuelle Planung von zeitlichen und anderen Ressourcen in Verbindung mit den definierten Schritten.¹⁸

3 Politische und wissenschaftliche Relevanz

Innerhalb dieses Kapitels werden die politischen und wissenschaftlichen Rahmenbedingungen dargelegt und gleichzeitig damit die Relevanz des Themas verdeutlicht. Die Digitalisierungsprogramme der Bundesregierung werden beschrieben und die Themen zu der Aktenbearbeitung und dem Umgang mit Dokumenten konkretisiert. Des Weiteren wird eine Einordnung der Thematik in die Wissenschaft der WirtSchaftsinformatik durchgeführt und ein Bezug zu der aktuellen Relevanz in Zeiten von Big Data vorgenommen.

3.1 Politik

Die “Digitale Agenda“, eine Broschüre der Bundesregierung und Teil der öffentlichkeitsarbeit, beinhaltet einzelne Etappen, Vorsätze und Ansichten der Regierung mit dem Hauptziel, ein einheitliches Verständnis von Politik und Digitalisierung zu errei- Chen.¹⁹ In ihr werden sowohl Punkte über Wirtschaft und Gesellschaft andiskutiert als auch Aspekte, die den Staat als Institut und öffentlichen Dienstleister betreffen.

Als wichtige Punkte ergeben sich insbesondere die Digitalisierung und das Electronic Government (E-Government). Im Regierungsprogramm “Digitale Verwaltung“ werden diese Punkte näher behandelt.²⁰

Die “Digitale Verwaltung 2020“, ausgegeben vom Bundesministerium des Innern, setzt auf die Digitale Agenda²¹ und ihre Prinzipien im Bereich “Innovativer Staat“ auf. Es werden Handlungsfelder und Maßnahmen beschrieben, die gleichzeitig im EGovG festgeschrieben wurden. Die Maßnahmen sind breit gefasst und haben durch die Festschreibung im EGovG den Charakter eines formellen Gesetzes. Der ?Aktionsplan E-Akte“ beschreibt, die Vorgehensweise der Bundesbehörden bei der Umstellung von papierbasierten auf elektronische Akten. Die Regierung will die Verwaltung im Rahmen ihrer Möglichkeiten unterstützen und innerhalb der gemeinsamen IT des Bundes, eine E-Akte beschaffen und zur Verfügung stellen.²²

Das EGovG hat das Ziel, die elektronische Verwaltung zu fördern und weiterzuentwickeln. Das Gesetz definiert Vorgaben zur Digitalisierung von Verwaltungsabläu- fen.²³ Der Geltungsbereich dieses Gesetzes ist auf die öffentlich-rechtliche Verwaltungstätigkeit der Bundesbehörden oder behördenähnlichen Organisationen des Bundes beschränkt. Der§ 6 EGovG legt die rechtliche Grundlage zur elektronischen Aktenführung in den Bundesbehörden fest. Die technischen Maßnahmen müssen weiterhin die Grundsätze ordnungsgemäßer Aktenführung erfüllen.²⁴

In der Beispielbehörde soll die Einführung der E-Akte mit Unterstützung eines Doku- menten-Management-Systems (DMS) erreicht werden. Das DMS hat dabei Aspekte wie Revisionssicherheit, Rechtssicherheit, Datenschutz und Langzeitarchivierung zu beachten. Durch technische aber auch organisatorische Vorgaben, werden die Grundsätze ordnungsgemäßer Aktenführung festgelegt.²⁵

Im Onlinezugangsgesetz (OZG) wird in § 1 Abs. 1 festgehalten, dass Behörden neben den bisherigen Eingängen, nun auch elektronische Zugänge bereitstellen sol- len.²⁶ Hieraus wird deutlich, dass bisherige, also klassische Zugänge weiterhin bestehen bleiben sollen. Sowohl in den Digitalisierungsprogrammen, als auch in den gesetzlichen Vorgaben wurden keine konkreten Vorgaben zur Digitalisierung der Eingangspost formuliert und stellen somit noch eine Lücke in den aktuellen Vorgaben dar.

Der IT-Planungsrat, als politisches Steuerungsgremium, beschäftigt sich mit der Koordination von Bund und Ländern im Bereich Informationstechnik. Hierzu zählen fachübergreifende IT-Fragestellungen sowie der Steuerung von E-Government-Pro- jekten.²⁷ Zudem werden Fachkongresse zusammen mit den beteiligten stellen und individuellen Schwerpunktthemen geleitet. Ein Thema im Kongress 2018 ist auch die Digitale Poststelle und die automatisierte Erkennung und Zuordnung von Geschäftsgang und Akte.²⁸ Hieraus wird deutlich, dass sich der Staat bereits mit der Digitalisierung und Optimierung von Posteingängen beschäftigt, jedoch noch keine Voga- ben definiert hat.

3.2 Wissenschaft

Innerhalb dieses Unterkapitels wird Text Mining in die Wirtschaftsinformatik eingeordnet und hiermit die Relevanz verdeutlicht.

Text Mining ist keine neue Technologie. Jedoch besagen die Google Trends, dass Text Mining weiterhin eine stetige Relevanz in Suchanfragen besitzt. So war Text Mining 2004 an einem Höhepunkt angelangt. Dieser fällt bis in das Jahr 2009. Seit diesem Zeitraum ist eine minimale Steigerung der Bedeutung weltweit anzusehen.²⁹

Business Intelligence, ein Schlagwort der Wirtschaftsinformatik, ist nach Chen der Sammelbegriff für Techniken zur Bereitstellung, Analyse und Konsolidierung von Daten zur Entscheidungsunterstützung.³⁰

Bange untersucht die Werkzeuge von Business Intelligence und klassifiziert diese in Datenbereitstellung (Backend), Informationsgenerierung sowie Informationsverarbeitung (Frontend) und Querschnittsaufgaben. Text Mining ist den Analysetools zuzuordnen und zählt wie in Abbildung 1 dargestellt, zu den Frontend-Werkzeugen.³¹

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Bange, c. (2006), s. 64.

Abbildung 1: Business-Intelligence-Werkzeuge

Nach Felden ist Text Mining, als Teil des Business Intelligence, eine Methode, die Informationsflut im Unternehmen bewältigen zu können. Neben den Massen an Daten und Dokumenten im Unternehmen kommen zunehmend Informationen und Texte aus dem World Wide Web hinzu. Entscheidungsträger benötigen gewisse Filter, um relevante Informationen zu identifizieren.³²

Business-Intelligence-Lösungen scheitern jedoch an Big Data, daher müssen andere Lösungen bereitgestellt werden.³³ Big Data steht für den T rend an Zuwachsenden Daten.³⁴ Aus Daten oder Informationen kann nur durch den Einsatz geeigneter Methoden wertvolles Wissen generiert werden.³⁵

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Weber. J., Urbanski, J. (2012), s. 19. Abbildung 2: Merkmale von Big Data

Wie in Abbildung 2 dargestellt, besitzt Big Data vier Facetten. Die Facette “Volume“ beschreibt die Datenmenge, die von Terabytes bis hin zu Petabytes reichen kann. “Variety“ steht für die Datenvielfalt der Unternehmen im Hinblick auf die Datenquellen und Datenformate. Die Datenformate unterteilen sich in die Kategorien unstrukturiert, semistrukturiert und strukturiert. Unternehmensinterne Daten werden durch externe Daten, wie zum Beispiel aus sozialen Netzwerken, ergänzt. “Velocity“ beinhaltet den Bereich Geschwindigkeit und steht für die stetig wachsende Anforderung der Verarbeitungszeit von Auswertungen der Daten. In dem Zusammenhang besteht ebenfalls die Anforderung der Datenverarbeitung in Echtzeit. Gefordert sind Analysen mit Antworten in Sekundenzeit sowie die Datengenerierung und Übertragung in hoher Geschwindigkeit. Die Facette “Analytics“ umfasst Methoden zur automatisierten Erkennung und Nutzung von Bedeutungen, Zusammenhängen und Mustern. Dazu gehören statistische Verfahren, Optimierungsalgorithmen, Vorhersagemodelle, Data Mining und Text- sowie Bildanalytik.³⁶

Unter Big Data fallen nicht ausschließlich die großen Datenmengen als solches, sondern auch die Analyse derer. Dies wird auch unter der Bezeichnung “Big Data Ana- lyties“ gefasst. Es beinhaltet sowohl die Anwendung von Text Mining, als auch von Data Mining.³⁷

Zusammenfassend ist festzustellen, dass Text Mining sowohl im Bereich Business Intelligence, als auch Big Data ein Werkzeug ist, das in der heutigen Zeit des “Information Overload“ weit verbreitet eingesetzt wird. Das Phänomen Information Overload zwingt Unternehmen dazu, ihre unternehmensinternen Daten mit Softwareunterstützung zu analysieren.³⁸ Der Begriff stammt von Jacoby und steht für die überlastung von Kommunikationsprozessen und damit das Entstehen einer großen Menge von irrelevanten Informationen. Die Überlastung entsteht durch den Fakt, dass Menschen nur begrenzte Informationen aufnehmen und verarbeiten können.³⁹

Ein Beispiel ist die Analyse von Kundeninformationen aus Customer-Relationship- Management-Systemen in Verbindung mit dem Kaufverhalten der Kunden. Diese Systeme nutzen die Logik des Data Mining und erlauben den Zugriff auf strukturierte

Informationen und Analyseergebnisse.⁴⁰ Wird jedoch unstrukturierter Text, wie Korn- munikation oder ein Freitext, zu Grunde gelegt, eignet sich hingegen das Text Mi- ning.⁴¹ Es ist daher besonders relevant für Wissenschaft und Praxis.

4 Stand der Forschung

Zunächst wird der Stand der Forschung von Text Mining dargestellt. Der Fokus liegt auf der Methode an sich, deren verschiedener Definitionen und die Verknüpfung mit der elektronischen Postverteilung. Anhand der nachfolgenden Ausarbeitung soll insbesondere verdeutlicht werden welche Möglichkeiten Text Mining bietet, welche Zusammenhänge sich darstellen und wie diese anwendbar sind.

Anschließend wird aufgezeigt wie Text Mining bereits in der Praxis angewendet wird und welche Softwareprodukte zur Automatisierung der Postverteilung eingesetzt werden können.

4.1 Text Mining

Durch die Datenhaltung im Internet und Hochverfügbarkeit von jeglichen Informati- onsre-ssourcen steigen auch die Anforderungen an die Informationssysteme. Die Bedeutung für Hilfsmittel, die den Umgang mit diesen Informationsquellen realisieren, nimmt zu.⁴² Die Datenmengen liegen in zunehmender Form als Text vor. Von Organisationen werden jedoch wenig Ressourcen bereitgestellt, um diese zu analysieren. Eine Lösung kann der Einsatz einer speziellen Analysesoftware sein. Da diese jedoch nicht das Interpretationsvermögen eines Menschen besitzt, ist dies eine große Herausforderung für Wissenschaft und Praxis.⁴³ Schätzungen zufolge werden im Internet ca. eine Million neue Dokumente pro Tag veröffentlicht, Tendenz stei- gend.⁴⁴

Nach Dörre wächst die Nutzung von Text Mining und damit auch die darunter fallenden Methoden (siehe Kapitel 4.3) aufgrund der Weiterentwicklung von Intranet sowie Internet.⁴⁵ In den letzten Jahren gab es einige Statistiken zur Bewertung der Wachstumsraten von strukturierten und unstrukturierten Daten.⁴⁶ Eine Statistik ist derTDWI Research Report. Dieser ging im Zeitraum von 2007 bis 2010 von einer Wachstumsrate zwischen 61 bis 81 Prozent für unstrukturierte Daten aus. Die Anzahl an strukturierten Daten sinkt hingegen zwischen 15 bis 46 Prozent.⁴⁷

Richard und Herschel gehen von einem Gesamtvorkommen von 80 Prozent unstrukturierter Daten, im Vergleich zu strukturierten Daten, aus.⁴⁸ Wenn man die Anzahl der Steigerung von unstrukturierten Daten nun noch mit der generellen Steigerung von Daten ins Verhältnis setzt, wird deutlich warum geeignete Verfahren zur Analyse und Aufbereitung notwendig sind. Die Menschheit hat zudem im Jahr 2011 allein 1,8 Zettabyte neue Daten produziert.⁴⁹

Das in Textform vorhandene Wissen kann u.a. wissenschaftliche Aufsätze, FachbüCher, Lexika, produktbezogene oder technische Dokumentationen, Handbücher, rechtliche Grundlagen, Verträge, Organisationsanweisungen, Korrespondenzen⁵⁰, Präsentationen oder Projektunterlagen betreffen.⁵¹

Der Begriff Wissen umfasst die auf Erfahrungen beruhende und verifizier- bzw. falsifizierbare Kenntnis von Fakten, die zur Problemlösung eingesetzt werden.⁵² Das Verwalten dieses Wissens, auch Wissensmanagement genannt, sorgt für die Erfassung und Strukturierung des Wissens, der Wissensträger und der Aufbereitung zum positiven Nutzen für das Unternehmen.⁵³

4.1.1 Definition

Ende der 90er Jahre hat sich Text Mining als ein Oberbegriff für eine Vielzahl von Methoden zur Wissensgewinnung aus Text etabliert. Feldman und Dagan prägten 1995 zunächst den Oberbegriff Knowledge Discovery in texts.⁵⁴ Hinzu kamen die Begriffe: Text Knowledge Engineering,⁵⁵ Text Data Mining,⁵⁶ Knowledge Discovery in Texts⁵⁷ und Textual Data Mining⁵⁸.

Für die Benennung im Rahmen der Thesis wird der Begriff Text Mining nach Tan⁵⁹ verwendet. Dieser hat sich bis heute in Wissenschaft und Praxis durchgesetzt. Für die Entwicklung einer einheitlichen Definition werden Definitionen verschiedener Autoren in einer zeitlichen Entwicklung dargestellt.

Nach Frawle und Piatetsky ist die knowledge discovery, bzw. die Wissensentdeckung, als nichttrivialer Prozess zur Entdeckung von unbekanntem, implizitem sowie potentiell nützlichem Informationen aus Daten definiert.⁶⁰ Feldman und Dagan er- ganzen diese Definition mit dem Zusatz, dass die Wissensentdeckung auf textuellen Datenbanken Anwendung findet.⁶¹

Nach Hearst sowie Behme und Multhaupt steht der Begriff für eine Sammlung von Techniken zur Identifikation und Extraktion von bisher unbekannten Informationen aus Texten.⁶² Anhand dieser Definition ist erkennbar, dass es sich beim Datenmaterial um unstrukturierten Text handeln muss.

Mehler und Wolff definieren Text Mining hingegen als Technologie, die Textanalysen durchführt und daraus gezielt Daten exploriert und aufbereitet.⁶³

Felden schließt sich Hearst an und sieht in Text Mining nur den Übergriff von Techniken, die aus verschiedenen wissenschaftlichen Disziplinen angewandt werden. Hierzu gehören zum Beispiel Data Mining, Information Retrieval, Computerlinguistik, Statistik oder intelligente Software-Agenten.⁶⁴

????? ?.a. stellt klar, dass keine einheitliche Definition für Text Mining vorhanden ist. Vielmehr umfasst es eine Sammlung an computergestützten Verfahren sowie Methoden und Ansätzen, die semantische Analysen durchführen, Texte (semi-)automa- tisch strukturieren und neue Informationen daraus extrahieren.⁶⁵

Nach Feldman und Sanger identifiziert und erforscht Text Mining, analog zum Data Mining, nützliche Informationen von interessanten Mustern. Im Gegenzug zum Data Mining, sind beim Text Mining die Datenquellen Dokumentensammlungen. Interessante Muster finden sich also nicht in formalisierten Datenbanksystemen, sondern in unstrukturierten Textdaten.⁶⁶

Ebenso stellt sich heraus, dass die Anwendung von Text-Mining-Methoden ein automatisiertes Werkzeug darstellt, um der Informationsflut der heutigen Zeit gerecht zu werden.⁶⁷

Aggarwal unterscheidet strukturierte und textuelle Daten. In dem Zusammenhang wird klargestellt, dass strukturierte Daten durch Datenbanksysteme verwaltet werden. Unstrukturierte Textdaten können hingegen nur durch Suchmaschinen verarbeitet werden. Neben der Erleichterung der Informationsbeschaffung ist das primäre Ziel durch Analysen Muster in Texten zu entdecken. Viele Text-Mining-Anwendun- gen identifizieren und analysieren interessante Muster, einschließlich deren Ausreißer und Trends.⁶⁸

Anhand der bisher genannten Formulierungen wird innerhalb dieser Thesis Text Mining wie folgt definiert: Text Mining ist der Oberbegriff für die Analyse und das Durchsuchen von unstrukturierten Texten anhand verschiedener Methoden, mit dem Ziel unbekanntes Wissen zu extrahieren.

4.1.2 Abgrenzung

Die verschiedenen Definitionen von Text Mining und deren Bedeutung bedürfen einer Abgrenzung. Immer wieder werden andere Disziplinen erwähnt und verschiedene Begrifflichkeiten verwendet. Insbesondere stellt sich heraus, dass Text Mining als Disziplin des Data Mining zu verstehen ist. Es existieren darüber verschiedene Meinungen, die neben weiteren Begriffen nachfolgend definiert und abgegrenzt werden.

Der Begriff Data Mining wurde zur International Conference on Artificial Intelligence eingeführt⁶⁹ und wird seitdem im Großteil der Literatur als Synonym für Knowledge Discovery in Databases geführt.⁷⁰ Daher wird der einschlägige Begriff auch im Rahmen dieser Thesis verwendet.

Frawley u.a. verstehen unter Data Mining das nichttriviale Extrahieren von impliziten, bisher unbekannten und möglicherweise nützlichen Informationen aus Daten.⁷¹ Fa- yyad u.a. schließen sich dieser Definition an und sprechen von Wissensentdeckung in Datenbanken. Der Prozess sorgt für die Identifizierung valider, neuer, potentiell nützlicher und auch verständlicher Muster in Daten.⁷²

Nach Feldman und Sanger leitet Text Mining viel aus der Forschung von Data Mining ab. Text-Mining- und Data-Mining-Systeme weisen viele Ähnlichkeiten auf. Eine identische Eigenschaft der Systeme besteht bei den Vorverarbeitungsroutinen, Mustererkennungsalgorithmen und den Präsentationsschichtelementen.⁷³ Die Auffassung, dass Text Mining als Teil-Disziplin von Data Mining angesehen wird, vertreten auch einige Autoren in der Literatur.⁷⁴ Weiterhin stellt Text Mining eine Erweiterung des Data Mining dar.

Das wesentliche Unterscheidungskriterium liegt somit im zu analysierenden Datenmaterial. Im Bereich Data Mining werden strukturierte und im Bereich Text Mining teil- oder unstrukturierte Daten als Grundlage verwendet.⁷⁵ Nach Heyer u.a. werden strukturierte Daten, im Gegensatz zu unstrukturierten Daten, innerhalb einer Datenbank “strukturiert“ verwaltet.⁷⁶ Opic u.a. ergänzen und beschreiben strukturierte Daten als Daten, die innerhalb einer relationalen Datenbank allein schon strukturiert sind, da dort eine Unterteilung in Tabellen und Spalten erfolgt.⁷⁷ Ein einfacher Fließtext, der natürlich-sprachige Inhalte aufweist, ist daher unstrukturiert. Dies können Freitextfelder oder Volltexte von Schriftgut und E-Mails sein.⁷⁸ Unstrukturierte Daten werden in der Regel in Content- oder Dokumenten-Management-Systemen verwaltet. Dort erfolgt eine Archivierung, Verschlagwortung, Versionierung sowie Visualisierung, die maximal semistrukturiert sein kann.⁷⁹

Hinzu kommt nach Behme und Multhaupt, dass Text Mining die automatische Erkennung von Textmerkmalen, zum Beispiel Eigennamen, zusammengehörige Wortkombinationen, Abkürzungen und somit Sprachanalyse durchführen kann.⁸⁰

Zusammenfassend wird festgestellt, dass Data Mining und Text Mining ähnlich funktionieren und gleiche Ziele verfolgen. Das Anwendungsgebiet bzw. das zu analysierende Material ist unterschiedlich. Text Mining versucht neues Wissen aus unstrukturierten und Data Mining aus strukturiertem Datenmaterial zu generieren.⁸¹ Die spe- ziehe Herausforderung von Text Mining liegt in dem zuvor notwendigen Prozess der Datenaufbereitung.⁸² Die unterschiedlichen Arten des Datenmaterials und deren Zugriffe werden zur Verdeutlichung in nachfolgender Tabelle 2 dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Heyer, G. u.a. (2006), s. 5. Tabelle 2: Darstellung der Zugriffe

Ein zusätzlicher Begriff in der Literatur ist das Web Mining. Es handelt sich dabei um die Anwendung von Mining-Methoden auf den Anwendungsfall des Internets.⁸³ Nach Mehler und Wolff ist Web Mining eine Weiterentwicklung des Text Minings. Die Texte liegen meist in einer spezielleren Form der Strukturierung vor und gelten als semistrukturiert. Es kommt dafür die HypertText Markup Language oder die extensible Markup Language in Betracht.⁸⁴

Insgesamt können verschiedene Konzepte, je nach Strukturierungsgrad und Ursprung des Datenmaterials, angewendet werden. Welche Methoden betroffen sind, wird nachfolgend erläutert. Aufgrund des konkreten Anwendungsfalls unstrukturierter Daten, werden die Methoden und Verfahren des ?Minings“ dem Bereich von Text Mining zugeordnet und nicht als Werkzeuge von Data Mining betrachtet. Zu jedem Datenmaterial oder Analysemethode wurden unterschiedliche Algorithmen entwi- ekelt.⁸⁵ Im Rahmen dieser Arbeit werden sie jedoch nicht vorgestellt, da sie für das Ziel, der verständlichen Darstellung von Text Mining, nicht notwendig sind.

4.2 Verfahrensarten

Als Grundlage für die Analysen werden, wie in Abbildung 3 dargestellt, statistische und musterbasierte Verfahren verwendet.⁸⁶

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung

Abbildung 3: Die Zweiteilung von Text Mining

Unter die statistischen Verfahren fallen die Differenzanalyse, Kookkurenzanalyse und Clusteranalyse. Differenzanalysen ordnen Text, durch sprachstatistische Gesetzmäßigkeiten und anhand verschiedener Kriterien, Merkmale zu. Die Kookku- renzanalyse sowie Clusteranalyse berechnen semantische Abhängigkeiten zwi- sehen Begriffen. Die musterbasierten Verfahren identifizieren innerhalb einer Auswähl von Texten allgemeingültige und relevante Muster. Die Texte sowie Textpassagen werden anhand zuvor definierter Muster identifiziert. Als Beispiel werden Merkmale, wie der Personen- oder Firmenname, angeführt. Diese Merkmale oder auch Attribute, werden mit Hilfe von Tags strukturiert, zum Beispiel: <Vorname>, <Nachname> oder <Firmenname>. Im Anschluss an die Strukturierung von Text, können mit Text-Mining-Werkzeugen Anfragen gestartet werden.⁸⁷ Diese vorgeschaltete Datenvorverarbeitung und Strukturierung ermöglicht das Analysieren des Textes, ohne eine menschliche Interpretation.⁸⁸

4.3 Übersicht der Methoden

Text Mining ist keine alleinstehende Methode. Die verschiedenen Verfahren, die die Extrahierung beschreiben, wurden in Kapitel 4.2 dargestellt. Daneben Stehen eine Vielzahl von Methoden oder auch Werkzeugen, die unter den Begriff Text Mining fallen.⁸⁹ Daher kann im Rahmen dieser Arbeit keine umfassende Darstellung dieser erfolgen.

Nach Hippner und Rentzmann werden die Techniken von Text Mining grob in vier Forschungsgebiete unterteilt: Natural Language Processing (NLP), Information Extraction, Information Retrieval und Künstliche Intelligenz.⁹⁰

Grobelnik und Mladenic sowie Hotho u.a. gehen von einem interdisziplinären Ansatz aus und beschreiben als Inhalte von Text Mining: Maschinelles Lernen, Data Mining, Statistik und statistisches Lernen, NLP sowie Information Retrieval.⁹¹

Miner u.a. schließen sich dem interdisziplinären Ansatz an und stellen in dem VennDiagramm in Abbildung 4 die insgesamt sieben Anwendungsbereiche des Text Mining dar. Diese sind im zentralen blaugefärbten Kreis fett dargestellt.⁹²

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Miner, G. u.a. (2012), s. 31.

Abbildung 4: Venn-Diagramm zur Unterteilung in sechs Gebiete

Im Venn-Diagramm sind neben der Oberkategorie Text Mining, die Bereiche Computer Linguistik, Bibliotheks- und Informationstechnik, Datenbanken, Data Mining, Artificial Intelligence sowie Machine Learning und Statistik in Ovalen dargestellt. Durch die Überlappung wird deutlich, dass alle sechs Gebiete zwar thematische Überschneidungen haben, aber auch ohne den Begriff Text Mining bestehen können. Die Schaffung dieses Gebiets sorgt lediglich dafür, dass sie als Teil-Disziplinen zusammengefasst werden.⁹³

Die unterschiedlichen Auffassungen des Inhalts von Text Mining (siehe Definitionen in Kapitel 4.1.1), bzw. seinem Ursprung, Stehen erst recht für seine Interdisziplinarität als solches. Dies wird zudem anhand der Anwendungsgebiete deutlich. Es kommen neben den verschiedenen gewollten Startszenarien,⁹⁴ auch verschiedene Branchen, wie Naturwissenschaften,⁹⁵ Informationswissenschaften,⁹⁶ Medizin, öffentlichkeitsarbeit, Marketing oder Finanz- und Rechtswissenschaften,⁹⁷ zum Einsatz.

4.4 Prozess

Für die Anwendung von Text Mining existieren verschiedene Prozessmodelle. So sieht Visa einen sehr kompakten Prozess, bestehend aus einer Datenvorverarbei- tung, der Zusammenfassung und einer Kodierung. Hierbei muss jeder Prozessschritt auf das Zwischenergebnis des vorherigen Prozessschrittes zurückgreifen.⁹⁸

Sullivan sieht den Prozess ausformulierter und unterteilt ihn in vier Schritte. Diese sind in Abbildung 5 dargestellt und beinhalten die Suche, Vorverarbeitung, Bewertung und Extrahierung bzw. Mustererkennung.⁹⁹ Auf der linken Seite befinden sich die Prozessschritte, während sich auf der rechten Seite die dort eingesetzten Technologien befinden.

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Sullivan, D. (2001), s. 324.

Abbildung 5: Text-Mmmg-Prozess

Der Prozess von Sullivan erscheint am relevantesten für die Praxis und wird daher als Grundlage für die Einordnung von Text-Mining-Methoden in den nachfolgenden Unterkapiteln gewählt und weiter beschrieben.

4.4.1 Suche

Im ersten Schritt des Prozesses erfolgt die Suche.¹⁰⁰ Hierbei sollen aus einer großen Menge von Dokumenten, durch eine eingrenzende Benutzeranfrage, ein Teil von relevanten Dokumenten zurückgeliefert werden. Genutzt wird das Information Ret- rievai oder auch die Volltextsuche.¹⁰¹ Es wird keine Struktur im Datenmaterial beno- tigt. Die Hauptaufgabe ist es Dokumente aufzufinden, die Antworten auf eine konkrete Fragestellung bieten könnten. Der Prozess begünstigt jedoch nur das Auffinden von Dokumenten. Die Beantwortung der Fragestellung ist ein Nebenziel des Anfragenden.¹⁰² Manninger schließt sich dem an und versteht unter Information Ret- rievai, das Auffinden von Dokumenten unstrukturierter Natur, die einen Informationsbedarf befriedigen.¹⁰³ Konkret werden anhand von definierten Suchbegriffen Dokumente aus einem großen Datenbestand herausgefiltert.¹⁰⁴ Das Information Retrieval leistet bei der Zielerreichung des Prozesses einen entscheidenden Beitrag, da Metadaten über die einzelnen Dokumente erzeugt werden.¹⁰⁵

Historisch gesehen ist diese Methode entstanden, um das (Wieder-)auffinden von wissenschaftlicher Literatur zu verbessern. Dies macht auch die Definition von Salton und McGill deutlich. Demnach ist Information Retrieval die Repräsentation, Speicherung, Organisation und der Zugriff auf den Informationsbedarf.¹⁰⁶ Information Retrieval besitzt demnach zwei Aspekte, zum einen die Konstruktion eines Indexes für alle möglichen Dokumente und zum anderen das Abrufen dieses Indexes. Für die Analyse, der in Frage kommenden Texte, werden alle Fachbegriffe inklusive ihrer Position im Text ermittelt und in einem Index gespeichert.¹⁰⁷ Das Ziel der Speicherung der Begriffe in einem sogenannten Schlagwortverzeichnis, ist die Information in welchem Dokument und in welcher Textstelle sie Vorkommen, um schnellere AntWortzeiten zu generieren.¹⁰⁸ Die Suchanfrage gibt die Dokumente jedoch unverarbeitet aus, d.h. es ist dem Suchanfragenden nicht ohne weiteres möglich, alle Informationen ohne weitere Analyse aufzunehmen.¹⁰⁹

Da auch unscharfe Suchbegriffe Vorkommen können, muss die Suche in der Lage sein auch die Flexion eines Terms zu entdecken. Hierfür werden Techniken der Da- tenvorverarbeitungsphase verwendet (siehe Kapitel 4.4.2).¹¹⁰

4.4.2 Datenvorverarbeitung

Trotz der Vorsortierung durch das Information Retrieval Stehen für den Benutzer noch zu viele Dokumente für seine Anfrage zur Verfügung. Daher sind Werkzeuge zur Erkennung von Strukturen in Text und Möglichkeiten zur Informationsextrahierung notwendig.

Hierfür können Techniken des NLP zum Einsatz kommen. Dies ist nach Manning und Schütze der Oberbegriff für die Suche nach Mustern in Sprache, die in Textform vorliegt.¹¹¹ Außerdem ist sie die Fähigkeit von Computerprogrammen, menschliche Sprache, egal ob geschrieben oder gesprochen, zu verstehen. Eine möglichst strukturierte Sprache erleichtert der Software eine Erkennung und das eindeutige Verstehen. Die menschliche Sprache ist jedoch nicht immer objektiv, sondern zum Beispiel durch eine soziale oder regionale Komponente beeinflusst.¹¹² Nach Kao und Poteet ist hierbei der Kern wer hat was, von wem, wann, wo, wie und warum durchgeführt.¹¹³

Zunächst erfolgt als erster notwendiger Schritt des NLP eine Tokenization bzw. To- kenisierung.¹¹⁴ Dabei wird der Text in einzelne Token unterteilt. Wobei Token nicht für das Wort, sondern für eine Instanz einer Folge von Zeichen in einem bestimmten Dokument steht.¹¹⁵ Manning U.a. geben hierfür folgendes Beispiel:

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Manning, c. D. u.a. (2009), s. 59. Tabelle 3: Beispiel für Tokenisierung

In Tabelle 3 wird deutlich, wie einzelne Satzstücke eingeteilt und Satzzeichen entfernt werden.¹¹⁶ Ein hingegen nicht-triviales Beispiel für die Tokenisierung wäre ein

Apostroph im Nachnamen oder die Abkürzung ?Dr.“, die ohne ihre Interpunktion nicht den vollen Sinn ergibt.¹¹⁷

Anschließend erfolgt das Entfernen von sogenannten Stoppwörtern. Dies beinhaltet Wörter oder Wortteile, die für die Analyse keine Bedeutung besitzen.¹¹⁸ Dies sind Konjunktionen, Präpositionen oder Artikel. Solche Stoppwörter werden zum Beispiel bei der Eingabe in Suchmaschinen herausgefiltert.¹¹⁹ Ein Ansatz zur Identifikation der Stoppwörter sind die Messung der Häufigkeit. So werden besonders häufige¹²⁰ oder auch besonders seltene Wörter in eine Stoppwortliste aufgenommen.¹²¹ Teilweise können auch bereits vordefinierte Listen herangezogen werden.¹²² Durch die Reduzierung der Stoppwörter wird die inhaltliche Qualität erhöht und der Analyseaufwand reduziert.¹²³

Nach der Reduktion des Datenmaterials kann eine Erweiterung erfolgen. Dies geschieht durch sogenanntes Part-of-speech-Tagging (POS-Tagging).¹²⁴ Hierbei erfolgt die Vergabe von Wortarten (zum Beispiel Substantiv, Adjektiv oder Verb) je Token.¹²⁵ Ein Beispiel wäre das Wort ?kreativ“, dies fällt demnach unter die Wortart Adjektiv.¹²⁶

Das Tagging kann Namen von Organisationen, Orten oder Personen leichter herausfiltern und entsprechend untersuchen.¹²⁷ Allerdings können auch doppeldeutige Wörter auftreten, die zum Beispiel als Adjektiv und Verb eingestuft werden kön- nen.¹²⁸ Nach Jurafsky und Martin können regelbasierte Tagger auf Basis von Lexika oder manuell erstellten Datenbanken bei dem Prozess unterstützen.¹²⁹

Danach werden diese Wörter auf Ihren Wortstamm zurückgeführt und mit Markié- rungen versehen, dies erfolgt entweder beim stemming oder der Lemmatisierung.

Durch die Markierungen werden den Wörtern Wortarten zugeordnet sowie Parser, die die Wortstellung in einem Satz, bestehend aus Subjekt, Prädikat und Objekt, ermitteln. Diesen Vorgang nennt man Parsing. Die Erfassung der Wortarten erfolgt durch den Zugriff auf Lexika.¹³⁰ Abschließend erfolgt eine semantische Analyse zur bedeutungsabhängigen Zerlegung von Texten.¹³¹ Hierfür existieren vollautomati- sehe Verfahren. Wauschkuhn hat 1996 bereits mit seinem Werkzeug eine Abdeckung von 85,7 Prozent in deutschsprachigen Sätzen erreichen können.¹³²

Bei der Lemmatisierung ist das Ziel, Verben auf ihre Grundform und Nomen auf die singuläre Form zu bringen.¹³³ Der Vorteil dabei ist, dass bei der Suchabfrage keine Wortformen beachtet werden müssen und generell eine niedrigere Anzahl an Indexeinträgen generiert werden muss.¹³⁴

Auch beim stemming wird das Wort auf einen Wortstamm reduziert.¹³⁵ Nach Kuhlen gibt es beim stemming folgende Ausprägungen der Rückführung auf die stammform: die lexikografische Grundform, die formale Grundform, also die Form wie sie in einem Wörterbuch zu finden ist, die Form bei der die Flexionsendungen abgetrennt werden und die Stammform nach linguistischen Prinzipien.¹³⁶ Das Ziel der Reduktion ist die Verbesserung der Abfrageergebnisse.¹³⁷ Dies wird erreicht, durch das Streichen des angehängten ?s“ bei der Pluralform.¹³⁸ Der Unterschied zwischen dem Stemming und der Lemmatisierung verdeutlicht Porter. Demnach wandelt Lemmat¡- sierung Nomen in die singuläre Form und Verben in die Grundform um. Das Stern- ming wiederum reduziert alle Wörter auf den gleichen stamm.¹³⁹ Nach Kettunen ?.a. sind die Unterschiede in der Performance der beiden Verfahren statistisch nicht sig- nifikant.¹⁴⁰

4.4.3 Bewertung und Selektion

Im Anschluss an die Suche, Reduktion und die sprachliche Erkennung der Dokumente, können je nach Anforderungen des Anfragenden die Dokumente in Gruppen eingeteilt werden. Hierfür gibt es zwei Optionen. Es können Dokumente in Themengebiete klassifiziert oder nach ähnlichen Dokumenten geclustert werden. Das Ziel dieser Methoden, ist ein verbessertes Suchergebnis.

Nach Renz und Franke können Dokumentenmassen durch das Einteilen in Klassen (siehe Kapitel 4.4.3.1), Cluster (siehe Kapitel 4.4.3.2) oder durch Informationsextraktion bzw. Zusammenfassung (siehe Kapitel 4.4.4) besser analysiert werden.¹⁴¹

4.4.3.1 Klassifikation

Die Klassifikation erlaubt es, dass Dokumente in zwei oder mehrere definierte Klassen unterteilt werden. Die Klassen können auch eine hierarchische Struktur aufwei- sen.¹⁴² Die Klassifikation erfolgt grundsätzlich nach gewissen Kriterien, die ein Dokument für die entsprechende Klasse erfüllen muss.¹⁴³ Daher spricht man auch vom überwachtem Lernen.¹⁴⁴ Hierdurch können zum Beispiel Nachrichtentexte ihrem inhaltlichen Schwerpunkt zugeordnet werden.¹⁴⁵

Die Klassifikation unterscheidet sich grundsätzlich in eine binäre oder eine multiple Klassifikation. Bei einer binären Klassifikation kann zum Beispiel eine Unterscheidung von E-Mails in Spam und kein Spam erfolgen.¹⁴⁶ Ein Beispiel für die multiple Klassifikation von Dokumenten wäre die Verteilung in vordefinierte Sachgebiete, wie zum Beispiel die Wissenschaften einer Literaturdatenbank.¹⁴⁷

Klassen müssen manuell erstellt werden. Hierfür sind jeweils Regeln zu definie- ren.¹⁴⁸ Solche Regeln werden in Entscheidungsbäumen visualisiert. Sie enthalten durch eine Vielzahl von Termen spezifische Wenn-Dann-Regeln.¹⁴⁹ Bei einer breiten

Masse kann der Pflegeaufwand hoch werden. Daher bietet sich der Einsatz von statistischen Methoden an.¹⁵⁰ Als Grundlage kommt die “Support Vector Machine“ zum Einsatz.¹⁵¹ Diese nutzt manuell klassifizierte Beispieldokumente, um die Regeln zu erlernen und zu analysieren. Durch diesen Schritt können zukünftig automatische Klassifizierungen vorgenommen werden.¹⁵²

Voraussetzung für die Dokumentenklassifikation ist eine abgeschlossene Datenvor- Verarbeitungsphase und die Vergabe von Metadaten. Anschließend können Klassifikationsalgorithmen wie der Naive Bayes oder die logistische Regression angewendet werden. Dokumentenmerkmale, wie Titel, Dateiname, Größe oder automatisch generierte Stichwörter, werden als Informationsquelle genutzt.¹⁵³

Ein Beispiel für eine Klassifikation gibt Albertz, der aus der Klassifikation von Bildmaterial in verschiedene Klassen berichtet. In nachfolgender Abbildung 6 ist die Grundannahme visualisiert, die die Objekte als trennbare Punkthaufen darstellen.¹⁵⁴

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Albertz, J. (1991), s. 141.

Abbildung 6: Grundannahme der Klassifikation

In jeder der Klassen, durch nahe beieinander liegende rote Punkte gekennzeichnet, werden im Anwendungsfall Dokumente gefasst.

4.4.3.2 Clustering-Verfahren

Das Clustering Oder die Clusteranalyse umfasst nach Miner u.a. den Prozess einer automatischen Erkennung von Ähnlichkeiten sowie Unähnlichkeiten von Objekten und der daraus entstehenden Gruppierung in sogenannten Clustern.¹⁵⁵ Beim Clustering spricht man von einem unüberwachtem Lernen, da keine Trainingsbeispiele wie bei der Klassifikation (siehe Kapitel 4.4.3.1) benötigt werden. Ziel der Anwendung von Clustering-Algorithmen ist die Identifikation von ähnlichen Dokumenten 0- der Wörtern sowie die Einteilung in bisher nicht bekannte Cluster bzw. Gruppen.¹⁵⁶ Die Regel bei der Bildung von Clustern ist, dass Datensätze innerhalb eines Clusters möglichst viele und Datensätze außerhalb eines Clusters möglichst wenige Ähnlichkeiten aufweisen.¹⁵⁷ Damit geht die Grundidee der Homogenität von Gruppen ein- her.¹⁵⁸ Schendera definiert die Ähnlichkeit anhand des Ähnlichkeitswertes, der umso höher oder niedriger ist.¹⁵⁹ Des Weiteren fällt unter das Clustern auch zwangsläufig das Segmentieren, da ein Gruppieren auch gleichzeitig eine Segmentierung dar- stellt.¹⁶⁰

Im Clustering-Verfahren von Dokumenten können Terme oder Konzepte, einschließ- lieh ihrer Gewichtung, genutzt werden. Hierbei muss durch zusätzliche Kriterien eine Charakterisierung erfolgen.¹⁶¹ Dokumente können mehreren Clustern angehören, dies nennt man überlappende Einteilung. Sind alle Dokumente auf Cluster verteilt, spricht man von einer vollständigen Verteilung. Ein Zentroid ist das häufigste Eie- ment eines Clusters und wird durch einen Mittelwert der Dokumente errechnet.¹⁶²

Um Cluster bilden zu können eignen sich verschiedene Methoden. Diese werden grob in zwei Kategorien unterteilt, die partitionierenden sowie die hierarchischen Me- thoden.¹⁶³

Ein partitionierendes Cluster ist flach. Ein Dokument wird nur einem Cluster Zugeordnet. Das Cluster beschreibt ein Thema, das einer bestimmte Menge an Merkmalen zugeordnet werden kann, die alle Dokumente in diesem Cluster gemeinsam ha- ben.¹⁶⁴ Wie in Abbildung 7 dargestellt werden ähnliche Dokumente (als blaue Punkte dargestellt) in einem Cluster (dünner Kreis) gruppiert.

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Dörre, J. u.a. (2004), s. 493.

Abbildung 7: Binäres Clustering

Ein hierarchisches Cluster gruppiert Dokumente nach ihrer Ähnlichkeit innerhalb einer Baumstruktur (siehe Abbildung 8). Dadurch wird erreicht, dass Dokumente einer Vielzahl an Clustern hierarchisch angehören können. Die Dokumente werden nicht in flache, sondern in größere Cluster gruppiert.¹⁶⁵ Im ersten Schritt wird für alle Dokumente ein Cluster gebildet. Anschließend werden zwei Cluster darunter gebildet, die nach bestimmten Kriterien gebildet werden. Dieser Vorgang wird wiederholt, bis jedes Dokument einem Cluster zugeordnet ist und die Abfolge der Cluster fest- steht.¹⁶⁶

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Dörre, J. u.a. (2004), s. 493.

Abbildung 8: Hierarchisches Clustering

Der Unterschied zur Self-Organization Map (SOM) oder auch Kohonen-Karte¹⁶⁷ liegt an der Visualisierung. Die SOM erzeugt eine automatisierte Darstellung der Clus- ter.¹⁶⁸ Die entstehende Karte ist, wie auf Abbildung 9 zu sehen, dreidimensional dargestellt und nach Themen sortiert. Umso höher ein Cluster platziert ist, desto höher ist die Anzahl der dazu gehörenden Dokumente. Die themenorientierte, visuelle AnOrdnung sorgt für eine einfache Anzeige der gesuchten Texte.¹⁶⁹

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Feiden, c. (2006), s. 293.

Abbildung 9: Self-Organization Map

Die Visualisierung ist dem menschlichen Gehirn nachempfunden.¹⁷⁰ Einige Themenbereiche sind beim Menschen auf der Hirnrinde regional angeordnet. Die SOM empfindet dieses Vorgehen nach und platziert daher wichtige Merkmale regional.¹⁷¹ Dokumente, die Ähnlichkeiten aufweisen, befinden sich auf der Karte in einem kürzeren Abstand zueinander.¹⁷² Die SOM ist in der Lage wichtige Kriterien zu bestimmen und erstellt anhand dieser Kriterien die Cluster. Dokumente besitzen berechnete Vektoren, deren Ähnlichkeit geprüft werden. Sobald neue Dokumente dazu kommen, wird eine Gewichtsanpassung vorgenommen und die Dokumente ggf. neu verteilt.¹⁷³

Wichtig ist nach Litz, dass Clusterverfahren und Algorithmen aufeinander abgestimmt werden, da die unterschiedlichen Verfahren nicht immer die identischen Ergebnisse liefern und daher nicht das korrekte Cluster gebildet werden kann.¹⁷⁴

4.4.4 Informationsextraktion

Die Informationsextraktion ermöglicht das Vergleichen von Dokumenten, üblicherweise eignen sich hierfür Wortformen des Textinhalts. Die Relevanz dieser Wortformen wird durch statistische Auffälligkeiten eingestuft.¹⁷⁵

Abbildung in dieser Leseprobe nicht enthalten

Bei der großen Anzahl an Text ist es wichtig, nur markante Eigenschaften zu extra- hieren.¹⁷⁶ Durch den Einsatz von linguistischen Verfahren kann der Aufwand zwar beschränkt werden,¹⁷⁷ es bieten sich jedoch zur weiteren Reduktion die in Abbildung 10 dargestellten Kriterien an:¹⁷⁸

Quelle: Eigene Darstellung nach Heyer, G. u.a. (2006), s. 222f.

Abbildung 10: Markante Kriterien zur Informationsextraktion

Die statistische Auffälligkeit besagt, dass die extrahierten Merkmale häufiger auftreten als in durchschnittlichen Texten. Die Auswahl erfolgt anhand einer Differenzanalyse. Unter Bekanntheit versteht man, dass die extrahierte Wortform eine gewisse Frequenz im Verhältnis zur allgemeinen Sprache besitzt. Die Mindesthäufigkeit setzt voraus, dass eine gewisse Anzahl der Merkmale im Datenmaterial vorkommt. Die Wortart bestimmt eine Vorgabe der Begriffe. So ist es deutlich sinnvoller sich auf Nomina zu beschränken, anstatt auf Adjektive und Verben, die in verschiedenen Kontexten angewendet werden können. Eine praktische Regel ist, sich auf Worte mit Großbuchstaben zu beschränken. Die Grundform beschreibt das Vorhandensein der Wörter im Infinitiv. Bei dem Prozess entstehen viele Beschränkungen, die auf Sinn- haftigkeit überprüft werden müssen.¹⁷⁹

[...]

¹ Naisbitt, J. (1982), o.s.

² Vgl. Heyer, G. u.a. (2006), s. 1.

³ Vgl. IDC (2012), o.s.

⁴ Vgl. Bundesministerium des Innern (2014), s. 25.

⁵ Vgl. Bundesministerium des Innern (O.J.), 0. s.

⁶ Vgl. Bundestag (2013), § 9.

⁷ Vgl. Bundesministerium des Innern (2013), s. 17.

⁸ Kleiner, T. (2015), s. 1.

⁹ Vgl. Walsch, T. (2017), s. 32.

¹⁰ Vgl. Corsten, H. (1998), s. 42f.

¹¹ Vgl. Eckardt, c., Bergmann, R. (2010), s. 45.

¹² Vgl. Bradner, s. (1997), s. if.; Beims, M. (2010), s. 143.

¹³ Vgl. Hedeman, B., Seegers, R. (2010), s. 75.

¹⁴ Vgl. Hansen, H. u.a. (2015), s. 334.

¹⁵ Vgl. Gelrhos, M. (2016), s. 19.

¹⁶ Vgl. Ruf, w., Fittkau, T. (2008), s. 116.

¹⁷ Vgl. Project Management Institute (2017), s. 195ff.

¹⁸ Vgl. Gantt, H. (1913), s. 128.

¹⁹ Vgl. Bundesministerium des Innern u.a. (2014), s. 2.

²⁰ Vgl. Bundesministenum des Innern u.a. (2014), s. 19.

²¹ Vgl. Bundesministerium des Innern u.a. (2014), s. 1 ff.

²² Vgl. Bundesministerium des Innern (2014), s. 25.

²³ Vgl. Bundesministerium des Innern (2014), s. 8f.

²⁴ Vgl. Bundestag (2013), §6.

²⁵ Vgl. Keller-Herder, J., Schallbruch, M. (2014), §6, Rn. 10-12.

²⁶ Vgl. Bundestag (2017), § 1.

²⁷ Vgl. Bundesrepublik Deutschland (2009), § 1.

²⁸ Vgl. IT-Planungsrat (2018), o.s.

²⁹ Vgl. Google Trends (O.J.), o.s.

³⁰ Vgl. Chen, H. u.a. (2012), s. 1166.

³¹ Vgl. Bange, c. (2006), s. 72.

³² Vgl. Felden, c. (2006), s. 284.

³³ Vgl. Martin, w. (2012), s. 17.

³⁴ Vgl. Weber, M., Urbanski, J. (2012), s. 7.

³⁵ Vgl. Laudon, K. u.a. (2016), s. 285.

³⁶ Vgl. Weber, M., Urbanski, J. (2012), s. 21.

³⁷ Vgl. Weber, M., Urbanski, J. (2012), s. 1.

³⁸ Vgl. Weber, M., Urbanski, J. (2012), s. 7.

³⁹ Vgl. Jacoby, J. (1977), s. 569.

⁴⁰ Vgl. Hoffmann, M. (2004), o.s.

⁴¹ Vgl. Mehler, A., Wolff, c. (2005), s. 1.

⁴² Vgl. Martin, w. (1998), s. 418.

⁴³ Vgl. Hlppner, H., Rentzmann, R. (2006a), s. 287.

⁴⁴ Vgl. Heyer, G. u.a. (2006), s. 3.

⁴⁵ Vgl. Dörre, J. u.a. (2001b), s. 425.

⁴⁶ Vgl. Steinecke, u., straub, w. (2010), s. 92.

⁴⁷ Vgl. Russom, p. (2007a), s. 11.

⁴⁸ Vgl. Herschel, R. T., Jones, N. E. (2005), s. 47.

⁴⁹ Vgl. Martin, w. (2012), s. 16.

⁵⁰ Vgl. Heyer, G. u.a. (2006), s. 8.

⁵¹ Vgl. Gluchowski, p. u.a. (2008), s. 320.

⁵² Vgl. Shapiro, s. c. (1987), s. 291.

⁵³ Vgl. Krogh, G. V., Venzln, M. (1995), s. 420.

⁵⁴ Vgl. Feldman, R., Dagan, I. (1995), s. 112.

⁵⁵ Vgl. Hahn, u., Schnattinger, K. (1998), s. 1.

⁵⁶ Vgl. Hearst, M. A. (1999), s. 3.

⁵⁷ Vgl. Kodratoff, Y. (1999), s. 1.

⁵⁸ Vgl. Loslewlcz, p. u.a. (2000), s. 99.

⁵⁹ Vgl. Tan, A.-H. (1999), s. 1.

⁶⁰ Vgl. Frawley, w. J.u.a. (1991), s. 58.

⁶¹ Vgl. Feldman, R., Dagan, I. (1995), s. 112.

⁶² Vgl. Hearst, M. A. (1999), s. 5; Behme, w., Multhaupt, M. (1999), s. 107.

⁶³ Vgl. Mehler, A., Wolff, c. (2005), s. 1f.

⁶⁴ Vgl. Felden, c. (2006), s. 284.

⁶⁵ Vgl. Heyer, G. u.a. (2006), s. 3f.

⁶⁶ Vgl. Feldman, R., Sanger, J. (2007), s. 1.

⁶⁷ Vgl. Hearst, M. A. (1999), s. 43.

⁶⁸ Vgl. Aggarwal, c. c., Zhai, c. (2012), s. 2.

⁶⁹ Vgl. Cabena, p.u.a. (1997), s. 15.

⁷⁰ Vgl. Chen, M. s.u.a. (1996), s. 866.

⁷¹ Vgl. Frawley, w. J.u.a. (1991), s. 58.

⁷² Vgl. Fayyad, u. M. u.a. (1996), s. 6.

⁷³ Vgl. Feldman, R., Sanger, J. (2007), s. 1.

⁷⁴ Vgl. Hearst, M. A. (1999), s. 5; Dörre, J. u.a. (2001a), s. 467f.; Bohnacker, u. u.a. (2002), s. 438; Renz, I., Franke, J. (2003), s. 1; Fan, w. u.a. (2006), s' 78; Bose, R. (2009), s. 156; Hansen, H. u.a. (2015), s. 294.

⁷⁵ Vgl. Clark, J. (2013), s. 5.

⁷⁶ Vgl. Heyer, G. u.a. (2006), s. 1.

⁷⁷ Vgl. Opic, M. u.a. (2012), s. 198.

⁷⁸ Vgl. Russom, p. (2007b), s. 2; Baars, H., Kemper, H.-G. (2008), s. 132.

⁷⁹ Vgl. Kemper, H.-G. u.a. (2010), s. 12.

⁸⁰ Vgl. Behme, w., Multhaupt, M. (1999), s. 107.

⁸¹ Vgl. Liddy, E. D. (2000), s. 13.

⁸² Vgl. Meier, M., Beckh, M. (2000), s. 165; Rajman, M., Veselý, M. (2004), s. 7.

⁸³ Vgl. Cooley, R. u.a. (1997), s. 558.

⁸⁴ Vgl. Mehler, A., Wolff, c. (2005), s. 5.

⁸⁵ Vgl. Sharafl, A. (2013), s. 79f.

⁸⁶ Vgl. Shi, G., Kong, Y. (2009), s. 4168.

⁸⁷ Vgl. Heyer, G. u.a. (2006), s. 4f.

⁸⁸ Vgl. Hippner, H., Rentzmann, R. (2006a), s. 287.

⁸⁹ Vgl. Clark, J. (2013), s. 10ff.

⁹⁰ Vgl. Hippner, H., Rentzmann, R. (2006a), s. 287.

⁹¹ Vgl. Hotho, A. u.a. (2005), s. 19; Grobelnik, M., Mladenic, D. (2005), s. 135.

⁹² Vgl. Miner, G.u.a. (2012), s. 31.

⁹³ Vgl. Miner, G.u.a. (2012), s. 31.

⁹⁴ Vgl. Miner, G.u.a. (2012), s. 32.

⁹⁵ Vgl. Ananiadou, s., McNaught, J. (2006), s. 1.

⁹⁶ Vgl. Miner, G.u.a. (2012), s 31.

⁹⁷ 7Vgl. Nisbet, R.u.a. (2009), s. 174.

⁹⁸ Vgl. Visa, A. (2001), s. 2f.

⁹⁹ Vgl. Sullivan, D. (2001), s. 324.

¹⁰⁰ Vgl. Sullivan, D. (2001), s. 341.

¹⁰¹ Vgl. Dörre, J. u.a. (2001b), s. 425.

¹⁰² Vgl. Hearst, M. A. (1999), s. 3.

¹⁰³ Vgl. Manning, c. D.u.a. (2009), s. 1.

¹⁰⁴ Vgl. Ferber, R. (2003), s. 18.

¹⁰⁵ Vgl. Feiden, c. (2006), s. 285f.

¹⁰⁶ Vgl. Saltón, G., McGill, M. J. (1983), s. 1.

¹⁰⁷ Vgl. Dörre, J. u.a. (2001b), s. 425.

¹⁰⁸ Vgl. Dörre, J. u.a. (2004), s. 479.

¹⁰⁹ Vgl. Sullivan, D. (2001), s. 341.

¹¹⁰ Vgl. Evert, s., Fltschen, A. (2001), s. 374.

¹¹¹ Vgl. Manning, c. D., Schütze, H. (1999), s. 4.

¹¹² Vgl. Zschelle, F. (2016), s. 64.

¹¹³ Vgl. Kao, A., Poteet, s. R. (2006), s. 1.

¹¹⁴ Vgl. Webster, J. J., Kit, c. (1992), s. 1106.

¹¹⁵ Vgl. Manning, c. D.u.a. (2009), s. 59.

¹¹⁶ Vgl. Manning, c. D.u.a. (2009), s. 59.

¹¹⁷ Vgl. Sharafi, A. (2013), s. 86.

¹¹⁸ Vgl. Hotho, A. u.a. (2005), s. 25.

¹¹⁹ Vgl. Lawrence, G. (1998), s. 99.

¹²⁰ Vgl. Manning, c. D.u.a. (2009), s. 27.

¹²¹ Vgl. Fox, c. (1992), s. 113.

¹²² Vgl. Baeza-Yates, R., Ribeiro, B. d. (1999), s. 167.

¹²³ Vgl. Sharafi, ?. (2013), s. 87.

¹²⁴ Vgl. Weiss, s. M.u.a. (2005), s. 37.

¹²⁵ Vgl. Feldman, R., Sanger, J. (2007), s. 60.

¹²⁶ Vg. Tanawongsuwan, P. (2010), s. 353.

¹²⁷ Vgl. Weiss, s. M.u.a. (2005), s! 37.

¹²⁸ Vgl. Heyer, G. u.a. (2006), s. 127.

¹²⁹ Vgl. Jurafsky, D., Martin, J. H. (2009), s. 169.

¹³⁰ Vgl. Damasceni, A. T. (2003), s. 20.

¹³¹ Vgl. Feldman, R., Sanger, J. (2007), s. 60f.

¹³² Vgl. Wauschkuhn, ?. (1996), s. 357.

¹³³ Vgl. Hotho, ?. ?.?. (2005), s. 26.

¹³⁴ Vgl. Korenius, T. u.a. (2004), s. 625.

¹³⁵ Vgl. Lovins, J. ?. (1968), s. 22.

¹³⁶ Vgl. Kuhlen, R. (1977), s. 67.

¹³⁷ Vgl. Kraalj, w., Pohlmann, R. (1996), s. 40.

¹³⁸ Vgl. Vickery, ?., Vickery, A. (1992), s. 262.

¹³⁹ Vgl. Porter, M. F. (1980), s. 131f.

¹⁴⁰ Vgl. Kettunen, K. u.a. (2005), s. 484.

¹⁴¹ Vgl. Renz, I., Franke, J. (2003), s. 1.

¹⁴² Vgl. Ferber, R. (2003), s. 47.

¹⁴³ Vgl. Lanqulllon, c. (2001), s. 23.

¹⁴⁴ Vgl. Dörre, J. u.a. (2001b), s. 437f.

¹⁴⁵ Vgl. Fan, w. u.a. (2006), s. 76f.

¹⁴⁶ Vgl. Lanqulllon, c. (2001), s. 2.

¹⁴⁷ Vgl. Ferber, R. (2003), s. 50f.

¹⁴⁸ Vgl. Felden, c. (2006), s. 264.

¹⁴⁹ Vgl. Sullivan, D. (2001), s. 448.

¹⁵⁰ Vgl. Sebastian¡, F. (2002), s. 30.

¹⁵¹ Vgl. Sebastian¡, F. (2002), s. 30f.

¹⁵² Vgl. Joachims, T. (1998), s. 137.

¹⁵³ Vgl. Feldman, R., Sänger, J. (2007), s. 64ff.

¹⁵⁴ Vgl. Albertz, J. (1991), s. 141.

¹⁵⁵ Vgl. Miner, G.u.a. (2012), s. 959ff.

¹⁵⁶ Vgl. Gordon, A. D. (1999), s. 183ff.

¹⁵⁷ Vgl. Bacher, J. u.a. (2010), s. 16.

¹⁵⁸ Vgl. Sodeur, w. (1974), á 118-124.

¹⁵⁹ Vgl. Schendera, c. F. (2010), s. 3.

¹⁶⁰ Vgl. Schendera, c. F. (2010), s. V.

¹⁶¹ Vgl. Rasmussen, E. (1992), s. 420.

¹⁶² Vgl. Saltón, G. (1989), s. 341.

¹⁶³ Vgl. Chamoni, p., Budde, c. (1997), s. 21.

¹⁶⁴ Vgl. Dörre, J. u.a. (2004), s. 493.

¹⁶⁵ Vgl. Dörre, J. u.a. (2004), s. 494.

¹⁶⁶ Vgl. Chen, J. u.a. (2000), s. 251f.

¹⁶⁷ Vgl. Thiran, p. (1999), s. 145.

¹⁶⁸ Vgl. Sullivan, D. (2001), s. 202f.

¹⁶⁹ Vgl. Felden, c. (2006), s. 293.

¹⁷⁰ Vgl. Miikkulainen, R. (1993), s. 114.

¹⁷¹ Vgl. Kohonen, T. (2001), s. 106.

¹⁷² Vgl. Merki, D., Räuber, Á. (2000), s. 102.

¹⁷³ Vgl. Miikkulainen, R. (1993), s. 116.

¹⁷⁴ Vgl. Litz, H. p. (2000), s. 420ff.

¹⁷⁵ Vgl. Heyer, G. u.a. (2006), s. 220.

¹⁷⁶ Vgl. Heyer, G. u.a. (2006), s. 222.

¹⁷⁷ Vgl. Renz, I., Franke, J. (2003), s. 4.

¹⁷⁸ Vgl. Heyer, G. u.a. (2006), s. 222f.

¹⁷⁹ Vgl. Heyer, G. u.a. (2006), s. 222f.

Excerpt out of 157 pages - scroll top

Details

Title: Text Mining in der elektronischen Postverteilung einer Bundesbehörde
College: University of applied sciences Frankfurt a. M. (IT Management)
Grade: 2,0
Author: M. Sc. Fabian Werk (Author)
Publication Year: 2018
Pages: 157
Catalog Number: V437681
ISBN (eBook): 9783668798236
ISBN (Book): 9783668798243
Language: German
Tags: Text Mining Postverteilung Post Posteingang Data Mining Mayring Qualitative Inhaltsanalyse Künstliche Intelligenz Maschine Learning

Quote paper: M. Sc. Fabian Werk (Author), 2018, Text Mining in der elektronischen Postverteilung einer Bundesbehörde, Munich, GRIN Verlag, https://www.grin.com/document/437681

Text Mining in der elektronischen Postverteilung einer Bundesbehörde

Excerpt

Inhalt

Abkürzungsverzeichnis

Tabellenverzeichnis

1 Einleitung

1.1 Themeneinführung

1.2 Aufbau der Arbeit

1.3 Ziele der Arbeit

2 Projektplanung

2.1 Strukturplanung

2.2 Zeitplanung

3 Politische und wissenschaftliche Relevanz

3.1 Politik

3.2 Wissenschaft

4 Stand der Forschung

4.1 Text Mining

4.1.1 Definition

4.1.2 Abgrenzung

4.2 Verfahrensarten

4.3 Übersicht der Methoden

4.4 Prozess

4.4.1 Suche

4.4.2 Datenvorverarbeitung

4.4.3 Bewertung und Selektion

4.4.3.1 Klassifikation

4.4.3.2 Clustering-Verfahren

4.4.4 Informationsextraktion

Details