Seit Anfang der 1990er Jahre hält die modellbasierte Ausführung von Prozessen immer mehr Einzug in Unternehmen und deren Informationssysteme. Beispielsweise werden im Bereich der Software-Entwicklung vor der Implementierung Modelle, der zu unterstützenden Prozesse, erstellt, sodass Missverständnisse im Vorfeld beseitigt werden und somit die Erfolgsaussichten eines Projektes gesteigert werden. Gleiches gilt im betrieblichen Kontext – idealerweise werden hier Prozessmodelle entworfen, welche später in die Ausführung durch menschliche oder maschinelle Ressourcen überführt werden. Geschäfts-prozessmanagement- oder Workflowmanagementsysteme sind heute sogar in der Lage die grafisch visualisierten Modelle direkt und ohne Umwege auszuführen.
Alle an einem solchen Prozess beteiligten Informationssysteme, beispielsweise ERP, CRM oder SCM, stellen Informationen zu den einzelnen Prozessschritten bereit, wodurch das Monitoring und die Analyse der Prozesse ermöglicht wird. Die Technologien dazu fallen unter die Schlagwörter BPA (Business Process Analysis) und BAM (Business Activity Monitoring). Die Existenz dieser und anderer Schlagwörter kennzeichnen die Notwendigkeit entsprechender Software, wobei Process Mining einen entscheidenden Beitrag liefert.
Das Ziel des Process Mining besteht in der Extraktion explizit vorhandenen Prozesswissens anhand der protokollierten Prozessinformationen, welche im Allgemeinen in Log-Dateien abgelegt werden. Dabei sollen nicht nur die Prozessabläufe analysiert, sondern auch kausale Zusammenhänge zwischen den einzelnen Aktivitäten hergestellt werden.
In der vorliegenden Arbeit wird deshalb zunächst auf das Process Mining im Allgemeinen eingegangen. Hier werden die Grundlagen vermittelt, die für das korrekte Verständnis der Problemstellung notwendig sind, sowie ein Ordnungsrahmen entworfen, um die verschiedenen Themenfacetten korrekt einordnen zu können. Anschließend wird kurz auf Markov-Modelle eingegangen und schließlich das Markov-basierte Process Mining erörtert. Abschließend werden die gewonnenen Kenntnisse zusam-mengefasst und in einem Fazit konkretisiert.
Inhaltsverzeichnis
1. Einleitung und Motivation
2. Process Mining
2.1 Begriffsklärung
2.2 Sichten des Process Mining
2.3 Einsatzmöglichkeiten
2.4 Grundkonzepte
2.4.1 Einführung
2.4.2 Annahmen
2.4.3 Log-basierte Ordnungsrelationen
2.4.4 Mining-Prozess
2.4.5 Herausforderungen
2.5 Methoden
2.7 Ordnungsrahmen
3. Markov Modelle
3.1 Einführung
3.2 Markov-Ketten
3.3 Markov Modelle
4. Markov-basiertes Process Mining
4.1 Einführung
4.2 Endlicher Zustandsautomat (FSM)
4.3 Parametrisierung
4.4 Beispiel
4.5 Processing
4.5.1 Erstellung von Wahrscheinlichkeitstabellen
4.5.2 Konstruktion eines gerichteten Graphen
4.5.3 Auflösung überladener Knoten
4.5.4 Konvertierung in einen endlichen Zustandsautomaten
4.5.5 Zusammenführung nichtdeterministischer Transitionen
4.6 Metriken zur Erkennung paralleler Abläufe
4.6.1 Vorbemerkung
4.6.2 Entropy
4.6.3 Event Type Counts
4.6.4 Periodicy
4.6.5 Deciding Causality
4.7 Evaluation
4.8 „Related Work“
5. Zusammenfassung und Fazit
Zielsetzung & Themen
Die vorliegende Seminararbeit untersucht das Markov-basierte Process Mining als hybride Methode zur Extraktion und Modellierung von Geschäftsprozessen. Ziel ist es, durch die Anwendung von Markov-Modellen auf Ereignisprotokolle (Event-Logs) eine fundierte Grundlage für die automatische Prozessableitung zu schaffen und dabei insbesondere Rauschdaten sowie komplexe Prozessstrukturen wie Parallelität und Schleifen adressierbar zu machen.
- Grundlagen des Process Mining und gängige Datenmodellierung.
- Mathematische Fundierung durch Markov-Ketten und Hidden Markov Models (HMM).
- Prozessschritte des Markov-basierten Mining (Processing) anhand eines konkreten Anwendungsbeispiels.
- Einsatz von Metriken zur Identifikation paralleler und konkurrierender Aktivitäten.
- Evaluation der Leistungsfähigkeit und Grenzen des algorithmischen Ansatzes bei der Prozessautomatisierung.
Auszug aus dem Buch
4.5.2 Konstruktion eines gerichteten Graphen
Aus den im ersten Schritt erzeugten Wahrscheinlichkeitstabellen wird nun ein gerichteter Ereignisgraph G wie folgt konstruiert.
1. Für jeden Ereignistyp wird genau ein Knoten im Ereignisgraph generiert.
2. Für jede Ereignissequenz, dessen Wahrscheinlichkeit entsprechend der Tabelle größer oder gleich der Wahrscheinlichkeitsschwelle p ist (hier: ≥ 0,5) und welche mindestens m mal im Stream vorkommt (hier mindestens 3 mal), wird genau eine markierte Kante, von einem Element in der Sequenz zum direkten Nachfolger in der Sequenz im Graphen erstellt.
Betrachte man im Beispiel die Sequenz BAF, welche im Stream 6 mal vorkommt und deren Wahrscheinlichkeit 1 ist, so werden Kanten vom Knoten B nach A und vom Knoten A nach F im Ereignisgraph erzeugt (alle relevanten Werte sind in Tabelle 4 fett gedruckt). Die Sequenz FAB, welche nur 2 mal vorkommt und eine Wahrscheinlichkeit von 0,33 vorweist, wird hingegen ignoriert. Dies zeigt bereits an dieser Stelle wie durch eine geeignete Konfiguration des Algorithmus auf Rauschdaten reagiert werden kann.
Die Anwendung dieser Vorgehensweise führt zu folgendem Graphen.
Zusammenfassung der Kapitel
1. Einleitung und Motivation: Die Einleitung führt in die Bedeutung der modellbasierten Prozessausführung ein und definiert die Zielsetzung der Arbeit, das Markov-basierte Process Mining als Methode zur Prozesswissens-Extraktion zu untersuchen.
2. Process Mining: Dieses Kapitel liefert die begrifflichen Grundlagen, definiert die verschiedenen Sichten (Prozess-, Organisations- und Fallsicht) und stellt den methodischen Ordnungsrahmen für das weitere Vorgehen bereit.
3. Markov Modelle: Es werden die mathematischen Grundlagen von Markov-Ketten erläutert, insbesondere die Eigenschaft, dass das zukünftige Verhalten nur vom aktuellen Zustand bzw. den n vorangegangenen Zuständen abhängt.
4. Markov-basiertes Process Mining: Dies ist das Kernkapitel der Arbeit, welches die Anwendung von Markov-Modellen zur automatischen Konstruktion von Zustandsautomaten beschreibt, inklusive detaillierter Processing-Schritte und Metriken für parallele Abläufe.
5. Zusammenfassung und Fazit: Das Fazit fasst die Ergebnisse zusammen und stellt fest, dass die Methode eine solide Grundlage für die Prozessanalyse bietet, jedoch aufgrund der notwendigen manuellen Optimierung noch Erweiterungsbedarf besteht.
Schlüsselwörter
Process Mining, Markov Modelle, Markov-Ketten, Hidden Markov Models, Ereignisprotokolle, Log-Files, Zustandsautomat, FSM, Prozessmodellierung, Rauschdaten, Prozessidentifikation, Workflow Mining, Conformance, Prozessadaption, Prozessautomatisierung.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit befasst sich mit der Anwendung von Markov-Modellen, um Geschäftsprozesse aus vorliegenden Ereignisprotokollen (Logs) automatisiert zu extrahieren und zu visualisieren.
Welche zentralen Themenfelder werden bearbeitet?
Die zentralen Themen sind das allgemeine Process Mining, die mathematische Theorie hinter Markov-Modellen sowie die konkrete algorithmische Transformation dieser Modelle in endliche Zustandsautomaten.
Was ist das primäre Ziel der Untersuchung?
Das Ziel ist es, zu zeigen, wie Markov-basierte Ansätze genutzt werden können, um Prozessmodelle effizient abzuleiten und dabei Herausforderungen wie Rauschdaten oder komplexe Verzweigungen zu bewältigen.
Welche wissenschaftliche Methode wird verwendet?
Es wird ein hybrider Ansatz verfolgt, der algorithmische Prozessidentifikation mit statistischen Markov-Modellen kombiniert, um sowohl das „Gedächtnis“ für Zustandsübergänge zu steuern als auch die Komplexität durch Parametrisierung zu regulieren.
Was wird im Hauptteil der Arbeit behandelt?
Im Hauptteil (Kapitel 4) werden die fünf Schritte des Processings erläutert, angefangen bei der Erstellung von Wahrscheinlichkeitstabellen bis hin zur Zusammenführung nichtdeterministischer Transitionen.
Welche Schlüsselwörter charakterisieren die Arbeit?
Wichtige Begriffe sind Prozess-Mining, Markov-Modelle, Zustandsautomaten (FSM), Log-Analyse und die Behandlung von Prozess-Strukturen wie Schleifen und Parallelität.
Warum ist die Wahl der Ordnungsparameter (n) bei Markov-Modellen wichtig?
Der Ordnungsparameter bestimmt das „Gedächtnis“ des Modells; ein höheres n berücksichtigt mehr Vorgängerzustände, führt jedoch aufgrund der exponentiell steigenden Laufzeit zu einer höheren rechnerischen Komplexität.
Wie geht die Arbeit mit dem Problem der „überladenen Knoten“ um?
Überladene Knoten entstehen, wenn unzulässige Sequenzen im Graphen repräsentiert werden. Die Lösung besteht darin, diese Knoten in disjunkte Mengen basierend auf der Sequenzwahrscheinlichkeit aufzuteilen.
Inwieweit kann der Algorithmus Rauschdaten herausfiltern?
Durch die Konfiguration der Wahrscheinlichkeitsschwelle und des Häufigkeitsparameters können seltene Sequenzen, die oft auf Rauschdaten hindeuten, bei der Konstruktion des Automaten gezielt ignoriert werden.
Warum ist ein Prozess-Designer trotz algorithmischer Ansätze weiterhin nötig?
Wie die Arbeit evaluiert, sind rein algorithmisch erzeugte Modelle oft nicht vollständig; der Mensch muss zur manuellen Verfeinerung und zur Auflösung von Restkonflikten eingreifen, um ein präzises Prozessmodell zu erhalten.
- Citar trabajo
- Tom Thaler (Autor), 2011, Markov-basiertes Process Mining, Múnich, GRIN Verlag, https://www.grin.com/document/168019