Diese Arbeit gibt einen Überblick über verschiedene Strategien zur Verbesserung der IT-Sicherheit im Kontext der Ladeinfrastruktur. Ziel ist es, die Rate der erkannten Betrugsszenarien und Angriffen auf Basis von Daten zu erhöhen und somit die Elektromobilität für die Zukunft sicherer zu gestalten. Dabei werden unterschiedliche Algorithmen aus dem Bereich des Data-Mining herausgearbeitet, erklärt und verglichen. Diese Verfahren werden verwendet, um ein Fahrerprofil zu erstellen und somit Anomalien im Bereich des Ladevorgangs durch Angreifer zu identifizieren. Für die Ausarbeitung werden echte Ladetransaktionen verwendet und eine Cloud-native Applikation basierend auf Docker entwickelt.
Die Mobilität in Deutschland steht vor einem großen Wandel beziehungsweise, wie der BMW-Chef Harald Krüger bereits 2017 erklärte, vor dem größten Umbruch aller Zeiten. In der heutigen Zeit steht der Ingenieurskunst des Fahrzeugbaus die Entwicklung von Software gegenüber und das einstige 'motorisierte Ungetüm' entwickelt sich immer mehr in ein verteiltes Computersystem auf vier Rädern – dem sogenannten dritten Lebensraum.
Akronyme wie CASE oder EASCY zeigen dabei die Richtung auf, in welche Fahrzeughersteller Zeit und Geld investieren und stetig ausbauen müssen, um langfristig erfolgreich wirtschaften zu können. Die Dimensionen Connected Car, Autonomes Fahren, Shared Mobility, Elektrifizierung und jährliche Updates beschreiben dabei die Kernthemen der Zukunft und stellen den Kunden immer mehr in den Mittelpunkt von Unternehmen. Das Ziel ist klar definiert: Jeder soll überall und zu jeder Zeit mobil sein. Zudem soll das Ökosystem der Mobilität sowohl sicherer werden, als auch gleichzeitig der ökologische Fußabdruck eines jeden Einzelnen verbessert werden.
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
Formelverzeichnis
Abkürzungsverzeichnis
1. Einleitung
1.1. Problemstellung und Motivation
1.2. Zielsetzung und Vorgehen
1.3. Beitrag zur Wissenschaft und Praxis
1.4. Aufbau der Arbeit
2. Elektromobilität
2.1. Überblick
2.2. Ökosystem und Architektur
2.3. Laden mittels Open Charge Point Protokoll
2.4. Betrachtung von Angriffsvektoren
3. Betrug und Anomalien
3.1. Überblick
3.2. Definition von Fraud
3.3. Fraud Triangle
3.4. Anomalien
3.4.1. Punktuelle Anomalie
3.4.2. Kontextuelle Anomalie
3.4.3. Kollektive Anomalie
4. Machine Learning
4.1. Überblick
4.2. Machine Learning
4.3. Big Data
4.4. Techniken zur Erkennung von Anomalien
4.5. Algorithmen zur Erkennung von Anomalie
4.6. Prozessmodell für Machine Learning Projekte
5. Algorithmen zur Betrugserkennung
5.1. Überblick
5.2. Logistische Regression
5.3. Random Forest
5.4. k-Nearest Neighbour
5.5. Bayes`sches Lernen
5.6. Multilayer Perzeptron
6. Datenanalyse & Feature Engineering
6.1. Überblick
6.2. Evaluation der Daten
6.3. Datenselektion
6.4. Datenvorbereitung
6.4.1. Standort
6.4.2. Zeit
6.4.3. Fahrzeugtyp/ Ladeverhalten
6.4.4. Benutzerspezifische Aktion
6.4.5. Vorgefiltertes Feature Set
6.5. Feature Engineering
6.5.1. Standort
6.5.2. Zeit
6.5.3. Fahrzeugtyp/ Ladeverhalten
6.5.4. Benutzerspezifische Aktion
6.5.5. Finales Feature Set
7. Vergleich der Algorithmen
7.1. Überblick
7.2. Bewertungskriterien
7.3. Analyseumgebung
7.4. Spot-Check
7.4.1. Logistische Regression
7.4.2. Random Forest
7.4.3. k-Nearest Neighbour
7.4.4. Bayes`sches Lernen
7.4.5. Multilayer Perzeptron
7.4.6. Finaler Spot-Check
7.5. Sensitivitätsanalyse
7.6. Tuning
8. Fazit und Ausblick
8.1. Zusammenfassung der Ergebnisse
8.2. Ausblick für Forschung und Industrie
9. Literaturverzeichnis
Abbildungsverzeichnis
Abb. 1: Schichtenarchitektur der E-Mobilität
Abb. 2: Rollenverteilung im Ökosystem der E-Mobilität
Abb. 3: Sequenzdiagramm Ladevorgang
Abb. 4: Übersicht über Betrugsszenarien und Akteure
Abb. 5: Repräsentation Punktuelle Anomalie
Abb. 6: Repräsentation Kontextuelle Anomalie
Abb. 7: Repräsentation Kollektive Anomalie
Abb. 8: Übersicht relevanter Algorithmen zur Anomalieerkennung
Abb. 9: Knowledge Discovery in Databases Prozess
Abb. 10: Abbildung einer fünffachen Kreuzvalidierung
Abb. 11: Lineare (links) und logistische Regression (rechts)
Abb. 12: Aufbau eines Klassifikationsbaums
Abb. 13: Aufbau Bayes`sches Netz
Abb. 14: Multilayer Perzeptron mit Aufbau eines Neurons
Abb. 15: Bestimmung des Minimums der Fehlerfunktion
Abb. 16: Vorgehen zur Analyse von Benutzerprofilen
Abb. 17: Mögliches Ladeverhalten auf der Arbeit
Abb. 18: Mögliches Ladeverhalten von Zuhause
Abb. 19: Architektur zur Datenerfassung
Abb. 20: Unterschied k-Means und k-Medoid
Abb. 21: Silhouette-Methode zum Identifizieren der k-Medoids Cluster-Anzahl
Abb. 22. Übersicht identifizierte PAM-Cluster
Abb. 23: Unterscheidung des Ladestandortes nach Cluster (oben) und Top 5 (unten)
Abb. 24: Verteilung des Ladeprofils auf die Wochentage
Abb. 25: Abfahrtszeit von Benutzern
Abb. 26: Dauer eines Ladevorgangs für jeden Nutzer Cluster (oben) und Top 5 (unten)
Abb. 27: Übersicht der bezogenen Energie pro Fahrer
Abb. 28: Ladevorgangsänderungen über die App durch den Nutzer
Abb. 29: Aufbau der Wahrheitsmatrix
Abb. 30: PRAUC-Metrik für die Nutzer mit den meisten Ladetransaktionen
Abb. 31: Berechnungszeiten für die Nutzer mit den meisten Ladetransaktionen
Abb. 32: Vorhersagezeiten für die Nutzer mit den meisten Ladetransaktionen
Abb. 33: PRAUC-Metrik für die Cluster Repräsentanten
Abb. 34: PRAUC-Metrik für die Cluster Nutzer mit den meisten Ladetransaktionen
Abb. 35: Übersicht der PR-Kurven für die logistische Regression
Abb. 36: Übersicht der Laufzeiten für die logistische Regression
Abb. 37: Übersicht der PR-Kurven für das Random Forest Verfahren
Abb. 38: Übersicht der Laufzeiten für das Random Forest Verfahren
Abb. 39: Übersicht der Laufzeiten für das k-Nearest Neighbour Verfahren
Abb. 40: Übersicht der PR-Kurven für das k-Nearest Neighbour Verfahren
Abb. 41: Übersicht des benötigten Speicherbedarfs
Abb. 42: Übersicht der PR-Kurven für das Naive Bayes Verfahren
Abb. 43: Übersicht der Laufzeiten für das Naive Bayes Verfahren
Abb. 44: Übersicht der PR-Kurven für das Multilayer Perzeptron
Abb. 45: Übersicht der Laufzeiten für das Multilayer Perzeptron
Abb. 46: Verteilung der PRAUC-Metrik für die finale Auswertung über fünf Cluster
Abb. 47: Übersicht der Kennzahlen für die Sensitivitätsanalyse
Abb. 48: Übersicht der Trainingszeiten für die Sensitivitätsanalyse
Abb. 49: Übersicht über die Resultate aus der seed -Wert Evaluierung
Tabellenverzeichnis
Tabelle 1: Übersicht der Ladetransaktionen-Features
Tabelle 2: Übersicht der Eingabewerte durch den Nutzer
Tabelle 3: Übersicht der gespeicherten Lade-Features nach der ersten Evaluation
Tabelle 4: Anzahl unterschiedlicher Ladesäulenstandorte pro Cluster Repräsentant
Tabelle 5: Übersicht des finalen Feature Sets
Tabelle 6: Vergleichsübersicht der PRAUC-Metrik aus dem vorab Spot-Check
Tabelle 7: Vergleichsübersicht der Trainings-Laufzeiten aus dem vorab Spot-Check
Tabelle 8: Vergleichsübersicht der Vorhersage-Laufzeiten aus dem vorab Spot-Check
Tabelle 9: Vergleichsübersicht der relevanten Metriken
Tabelle 10: Vergleichsübersicht der Algorithmen auf Basis der Bewertungspunkte
Tabelle 11: Vergleichsübersicht der PRAUC-Metrik der Sampling-Methoden
Formelverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1. Einleitung
1.1. Problemstellung und Motivation
Die Mobilität in Deutschland steht vor einem großen Wandel beziehungsweise wie der BMW-Chef Harald Krüger bereits 2017 erklärte:
„Die Autoindustrie steht vor dem größten Umbruch aller Zeiten.“1
In der heutigen Zeit steht der Ingenieurskunst des Fahrzeugbaus die Entwicklung von Software gegenüber und das einstige „motorisierte Ungetüm“2 entwickelt sich immer mehr in ein verteiltes Computersystem auf vier Rädern – dem sogenannten dritten Lebensraum. Akronyme wie CASE oder EASCY zeigen dabei die Richtung auf, in welche Fahrzeughersteller Zeit und Geld investieren und stetig ausbauen müssen, um langfristig erfolgreich wirtschaften zu können. Die Dimensionen Connected Car, Autonomes Fahren, Shared Mobility, Elektrifizierung und jährliche Updates beschreiben dabei die Kernthemen der Zukunft und stellt den Kunden immer mehr in den Mittelpunkt von Unternehmen. Das Ziel ist klar definiert: Jeder soll überall und zu jeder Zeit mobil sein, zudem soll das Ökosystem der Mobilität sowohl sicherer, aber auch gleichzeitig der ökologische Fußabdruck eines jeden Einzelnen verbessert werden.
Zugleich sind die Experten davon überzeugt, dass sich für die Hersteller durch die neuen Möglichkeiten auch weitere Geschäftsfelder entwickeln werden und die Umsätze und Gewinne dieser lukrativer sein können als durch den Fahrzeugverkauf selbst3. Die Grundlage dafür sind Daten, die bereits jetzt durch vernetzte Autos gigabyteweise zur Verfügung stehen. Es wird sogar davon ausgegangen, dass durch selbstfahrende Autos pro Stunde und pro Fahrzeug 3.600 Gigabyte an Daten entstehen werden.
Vor allem das Thema Sicherheit gewinnt dabei an immer mehr Bedeutsamkeit, denn anhand der Daten können nicht nur neue Geschäftsmodelle entwickelt werden, sondern auch mögliche Angriffsszenarien oder menschliche Fehler, wie das Falschfahren, verhindert werden. Diese steigende Bedeutung lässt sich auch anhand einer Studie von Deloitte belegen. Diese besagt, dass 68% der 18- bis 30-Jährigen am meisten an sicherheitsrelevanten Diensten interessiert sind. Erst darauf folgen Navigationsdienste mit 49% und In-Car-Entertainment mit 31%4.
„Über 55% aller Neuzulassungen sind 2030 schon komplett elektrifiziert.“5
Aktuell befinden sich die Elektromobilität und alternative Antriebskonzepte mittels Wasserstoffes oder Erdgas im Fokus der Automobilindustrie. Bereits jetzt gibt es 32 verschiedene Elektroautomodelle in Deutschland (Stand Dezember 2019). Eine Millionen Elektrofahrzeuge werden bis 2022 auf den deutschen Straßen erwartet und die Regierung hat bereits drei Milliarden Euro für die Forschung und Entwicklung bereitgestellt6. Doch auch hier bestehen neben den Chancen viele verschiedene Risiken. Vor allem das Laden von E-Fahrzeugen steht immer wieder im Fokus von Sicherheitsexperten, da der offiziell veröffentliche OCPP-Standard ohne zusätzliche Maßnahmen sich als nicht sicher erweist. Auch die Art der Authentifizierung weist Schwachstellen auf, da für diese eine nicht verschlüsselte Kommunikation genutzt wird, bei der sich der Kunde mittels einer NFC- oder RFID-Karte authentifiziert. Diese Sicherheitslücke wurde unter anderem durch Mathias Dalheimer auf dem Chaos Computer Kongress 2017 demonstriert7. Das Kopieren von Ladekarten ist keine Herausforderung und das sogenannte Schwarzladen auf Kosten anderer ist ohne großen Aufwand möglich.
Eine einfache Prüfung, ob ein Ladevorgang mittels der RFID-Karte des Kunden zeitgleich an mehreren Standorten authentifiziert wurde, ist natürlich schnell realisierbar. Aber um ein tatsächlich intelligentes System zum Erkennen von Betrug handelt es sich hierbei nicht. Die Klassifikation einer gültigen oder betrügerischen Aktivität sollte daher besser über ein komplexes System erfolgen, bei welchem auch weitere Parameter wie Zeit, Ort oder auch vergangene Daten berücksichtigt werden.
Der Automobilindustrie stehen viele neue Themen unter verschiedensten Gesichtspunkten gegenüber, die in den nächsten Jahren sowohl fachlich als auch technisch untersucht, bewertet und bis zur Marktreife vorangetrieben werden müssen.
1.2. Zielsetzung und Vorgehen
Ziel dieser Arbeit ist die Erforschung und Bewertung der nötigen Rahmenbedingungen eines Systems zur Betrugserkennung beim Laden von E-Fahrzeugen. Anhand von Ladetransaktionen sollen mittels Machine Learning Verfahren verdächtige Ladetransaktionen identifiziert werden, welche nicht mit einem bestehenden Nutzerverhalten übereinstimmen. Der Fokus der Arbeit bezieht sich dabei auf die Vor- und Aufbereitung von Daten, sowie den Vergleich verschiedener Klassifikationsalgorithmen.
Auf Basis der Literaturrecherche werden dazu verschiedene Algorithmen zur Entdeckung von Betrug herausgearbeitet und vorgestellt. Um diese Verfahren zur Betrugserkennung zu vergleichen, werden echte Ladetransaktionen von einer REST-Schnittstelle des ACN-Projektes des California Institute of Technology erfasst und über ein verteiltes System über mehrere Micro Services hinweg prozessiert. Darauf aufbauend wird basierend auf dem Knowledge Discovery in Databases Prozess (KDD) eine Untersuchung der gesammelten Daten durchgeführt, iterativ Zusammenhänge evaluiert und neue Merkmale hinzugefügt. Das finale Feature Set kann folglich genutzt werden, um für die zu untersuchenden Verfahren ein Modell zu trainieren und dieses anhand von Testdaten auf verschiedene Metriken zu vergleichen. Abschließend gilt es, die Ergebnisse auf ihre Aussagekraft zu verifizieren und das Tuning aufgrund der spezifischen Eigenschaften von Betrugsdatensätzen durchzuführen. Für die Umsetzung wird die Programmiersprache R, sowie das Data Science Framework caret genutzt.
1.3. Beitrag zur Wissenschaft und Praxis
Die Arbeit beschäftigt sich mit der Forschung des neuen Umfeldes der Elektromobilität. Dazu sollen Vorgehensweisen zur Betrugserkennung von Ladevorgängen untersucht werden und Methoden zur Vor- und Aufbereitung von Ladetransaktionen analysiert werden, damit ein möglichst leistungsstarkes Verfahren entwickelt werden kann.
Das entstehende System soll für die jeweiligen Betreiber von Ladeinfrastruktur eine zusätzliche Möglichkeit bieten, die Sicherheit für den Endkunden, aber auch für sich selbst zu erhöhen und sich somit vor unterschiedlichen Angriffsszenarien zu schützen und einem wirtschaftlichen Verlust vorzubeugen. Dabei gilt es zu evaluieren, welche Merkmale für ein Modell relevant und aussagekräftig sind, um Anomalien in diesem Szenario zu erkennen. Zudem werden verschiedene Algorithmen zur Klassifikation der Daten angewendet und überprüft, inwiefern diese in einem zukünftigen Produktivsystem sinnvoll eingesetzt werden können. Da es sich hierbei um einen unausgewogenen Datensatz an Betrugs- und Nicht-Betrugsfällen handelt, werden zudem unterschiedliche Ansätze erforscht, um die Modelle zu optimieren. Die Resultate sollen dazu dienen, für zukünftige Forschungsarbeiten neues Wissen bereitzustellen und auch in der Praxis die Sicherheit der Ladeinfrastruktur zu verbessern.
1.4. Aufbau der Arbeit
Die vorliegende Masterarbeit ist in insgesamt acht Kapitel unterteilt. Die ersten drei Kapitel führen dabei in die Thematik ein und vermitteln dem Leser einen Überblick und das nötige Grundwissen über die Anomalieerkennung und die Elektromobilität. In den Kapiteln vier und fünf wird das Thema des Machine Leanings betrachtet und verschiedene Algorithmen zur Betrugserkennung auf Basis bisheriger Forschungsarbeiten präsentiert.
Nach Abschluss des Grundlagenwissens wird in den Kapiteln sechs und sieben die Analyse dieser Arbeit durchgeführt und die in der Theorie vermittelten Ansätze evaluiert. Dazu werden anhand der Phasen des KDD-Prozesses die Ladetransaktionen aufbereitet und Modelle berechnet, untersucht und optimiert. Zum Schluss betrachtet Kapitel acht die erzielten Ergebnisse und gibt zudem einen Ausblick auf zukünftige Forschungsthemen in diesem Bereich.
2. Elektromobilität
2.1. Überblick
In diesem Kapitel werden die Grundlagen der E-Mobilität beschrieben. Dazu soll ein Einblick in die fachliche Thematik gegeben werden. Es werden hierzu neben dem Ökosystem und der Architektur auch die zugrundeliegenden Protokolle betrachtet, bevor die potentiellen Angriffsvektoren erklärt werden. Dem Leser soll anhand dieser Einführung – neben Wissen über die aktuelle Ausgangssituation im Markt – vermittelt werden, wie die einzelnen Komponenten zusammenspielen, aber auch welche Auswirkungen entstehen können. Das Ziel ist es, diese Risiken zu minimieren.
2.2. Ökosystem und Architektur
Die mangelnde Ladeinfrastruktur steht immer wieder im Fokus, wenn es um die Nachteile und Herausforderungen der E-Mobilität geht, sowie einer der Hauptgründe gegen den Kauf eines Elektroautos. Die am häufigsten genannten Bedenken der Kunden sind: Lange Lade- und Wartezeiten, keine verfügbaren Ladestationen im öffentlichen Raum, keine Lademöglichkeit im eigenen Zuhause, sowie die Reichweitenbeschränkung8 der Fahrzeuge. Doch um eine Lösung für diese Problematik zu finden, sind unterschiedlichste Stakeholder aus verschiedenen Branchen nötig. Dazu zählen die Automobilhersteller, Energieversorger, Wohnbaugesellschaften, Ladesäulenhersteller, Gemeinden, Kommunen und viele mehr. Daher verwundert es nicht, dass der Fortschritt und die Entwicklungen des Ladeökosystems nur langsam voranschreiten.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 1: Schichtenarchitektur der E-Mobilität9
Vereinfacht lässt sich das Ökosystem der E-Mobilität als eine Schichtenarchitektur beschreiben, die sich durch folgende Stakeholder aus unterschiedlichen Branchen zusammensetzt (Abb. 1):
- der Kunde/ Nutzer eines Elektroautos
- der Hersteller von Ladehardware
- der Besitzer der Ladehardware
- der Charge Point Operator (CPO)
- der Mobility Service Provider (MSP)
- der eRoaming Service Provider (ERP)
Damit ein Kunde sein E-Fahrzeug laden kann, muss er zuerst einen Vertrag mit einem Mobility Service Provider abschließen. Anhand dieses Vertrages erfolgt die Abrechnung über den bezogenen Strom. Damit der Kunde sich an Ladesäulen auch authentifizieren kann, erhält er von diesem MSP Zugangsdaten. Diese können in unterschiedlicher Form ausgehändigt werden. Häufig sind NFC-/ RFID Karten oder mobile Apps das gewählte Medium, mittels welchem sich der Kunde an der Ladehardware ausweisen kann.
Öffentliche Ladesäulen gehören meistens Gemeinden oder Unternehmen und werden durch diese verwaltet. Dies beschreibt die Rolle des Charge Point Operators. Er kümmert sich um den Betrieb der Hardware, sowie das Kontrollieren von Ladetransaktionen, das Updaten der Firmware oder auch das Abfragen von Diagnosedaten im Fehlerfall. Hierfür wird die Ladesäule an das Backend-System des CPOs angeschlossen. Unter Verwendung des OCP-Protokolls werden die dafür verwendeten Nachrichten zwischen Ladesäule und Backend ausgetauscht und die Funktionalität gewährleistet.
Da die Ladesäulen oft nicht dem Mobility Service Provider selbst gehören, der Charge Point Operator beziehungsweise der Stromlieferant jedoch Geld für den durch den Kunden bezogenen Strom erhalten möchte, muss der CPO mit dem MSP kommunizieren. Dazu muss der Ladesäulenbetreiber, sowohl bei der Authentifizierung die Vertragsdaten des Nutzers überprüfen, als auch die abgeschlossenen Transaktionen dem MSP übermitteln, damit letztendlich die Kosten dem Endkunden in Rechnung gestellt werden und die Rechnungen beglichen werden können.
Anhand dieses Beispiels zeigt sich, dass jeder CPO auch jeden MSP, mit dem ein Kunde einen Vertrag abschließen kann, in das eigene Backend-System integrieren muss, damit der Ladeprozess funktioniert. Umgekehrt kann ein Kunde nur an den Ladesäulen laden, an welchen der eigene MSP unterstützt wird. Dadurch kann die Auswahl an Ladesäulen im öffentlichen Raum für den Endkunden stark eingeschränkt sein. Um diesem Problem entgegenzuwirken hat sich der eRoaming Anbieter im Markt als weiterer Stakeholder etabliert. Dieser verknüpft unterschiedlichste Charge Point Operatoren mit Mobility Service Providern. Folglich muss nicht jeder CPO jeden MSP kennen, sondern kann die Integration durch den eRoaming Anbieter abstrahieren.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2: Rollenverteilung im Ökosystem der E-Mobilität10
Die einzelnen Schichten beziehungsweise die Aufgaben der jeweiligen Stakeholder können sich dabei auch überschneiden und sind fachlich nicht exakt voneinander trennbar. So kann ein CPO auch Funktionen eines MSP Anbieters übernehmen. Des Weiteren ist es denkbar, dass ein Provider, zum Beispiel der eRoaming Anbieter, in einem unternehmensinternen Ökosystem für das Laden von Mitarbeitern gar nicht relevant ist.
Neben den Stakeholdern eines klassischen Ablaufs einer Ladetransaktion sind noch weitere Anbieter aus anderen Branchen involviert (Abb. 2). Sowohl Techniker und Messstellenbetreiber sind notwendig, um die Ladesäulen nutzen zu können, aber auch um Strom ordnungsgemäß messen und abrechnen zu können. Weiter sind noch Verantwortliche für Bilanzen nötig, wenn es um die Energielieferung und das Kompensieren finanzieller Ungleichgewichte geht.
2.3. Laden mittels Open Charge Point Protokoll
Für die Kommunikation zwischen der Ladehardware und dem Backend-System wird das sogenannte Open Charge Point Protokoll verwendet. Dabei handelt es sich um einen Standard, der sich vorwiegend im europäischen und asiatischen Raum etabliert hat. Die Open Charge Allianz ist dabei das Konsortium von führenden Unternehmen aus der Automobilbranche und dem Energiesektor, welches die Standardisierung seit mehr als zehn Jahren vorantreibt und weiterentwickelt. Während zu Beginn noch auf SOAP als Austauschformat zwischen Backend und Ladesäule gesetzt wurde, hat sich seit der Version 1.6 JSON als Übertragungsformat etabliert. Ab dieser Version sind die Nachrichtentypen größtenteils kompatibel. Lediglich manche Attribute beziehungsweise deren Ausprägungen unterscheiden sich.
Damit die Unabhängigkeit zwischen den Ladesäulen und einem zentralen Backend trotzdem gewährleistet werden kann, muss der Client/ die Ladesäule beim Verbindungsaufbau das unterstützte Protokoll angeben. Ähnlich wie beim TLS-Handshake wird dann das Protokoll für die neue Session zwischen Client und Server ausgehandelt. Die weitere Kommunikation erfolgt immer asynchron und bidirektional in Echtzeit über einen WebSocket Kanal. Somit erhält der Client auf eine Anfrage erst zeitversetzt eine Antwort. Über eine eindeutige Identifikationsnummer können Anfrage und Antwort entsprechend einander zugeordnet werden.
Das Protokoll definiert zudem anhand der einzelnen Nachrichtentypen die unterstützten Anwendungsfälle und Ablaufsequenzen11. Dazu gehört das Booten der Ladesäule, das Aktualisieren von Konfigurationsparametern und vor allem der Ladevorgang an sich (Abb. 3). Dieser besteht aus mehreren Nachrichten, die je nach Authentifizierungsverfahren zwischen Ladesäule und Backend ausgetauscht werden.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3: Sequenzdiagramm Ladevorgang12
Der am meisten verbreitete Ansatz zum Nachweis der Identität erfolgt mittels einer NFC-/ RFID-Karte, welche durch den Kunden an das Lesegerät der Ladesäule gehalten wird. Diese liest die Vertragsnummer des Kunden aus und übermittelt diesen Identifikationstag mittels der „ Authorize “-Nachricht an das Backend. Durch den eRoaming Provider beziehungsweise den Mobility Service Anbieter kann die Gültigkeit des Vertrages evaluiert werden. Im Falle eines positiven Prüfungsergebnisses wird der Ladesäule asynchron eine Bestätigung der Autorisierungsanfrage gesendet und die Ladetransaktion kann beginnen. Darauf folgt eine „ StartTransaction “-Nachricht, welche Meta-Informationen wie den Ladezählerstand der Ladesäule enthält. Optional können während des Ladevorgangs weitere Messwerte übermittelt werden, um den Ladeprozess auf Konsistenz zu evaluieren. Bei Beenden des Ladevorgangs werden diese Daten der Ladesession erneut mit einer „ StopTransaction “-Nachricht mitgeteilt.
Anhand dieser Daten der Authentifizierung und des Ladevorgangs kann festgestellt werden, wie viel Strom durch einen Endkunden konsumiert wurde, in welchem Zeitraum und an welchen Tagen. Wichtig ist, dass diese Daten – vor allem die Messwerte – sicher übertragen werden13 und nicht durch Angreifer manipuliert werden können. Dadurch wird gewährleistet, dass die Abrechnung oder auch automatisierte Betrugserkennungssysteme fehlerfrei funktionieren können.
2.4. Betrachtung von Angriffsvektoren
Vertraulichkeit, Integrität, Verfügbarkeit, Authentizität und Verbindlichkeit sind die IT-Schutzziele, die ein IT-System gewährleisten muss, um gegen Angriffe geschützt zu sein. Gerade im neuen Umfeld der E-Mobilität und dem starken Fokus auf eine Internet of Things Plattform gibt es ständig neue Herausforderungen, die beachtet und abgesichert werden müssen. Zudem bietet der OCPP-Standard kein Vorgehen zum Schutz vor „ Man-in-the-Middle “-Attacken mit Fokus auf die Modifikation von Ladetransaktionen, dem Kompromittieren von Ladesäulen oder dem Stehlen von Zugangsdaten.
„Karten könnten auf einfache Weise geklont werden, so dass die darauf gespeicherte Nummer von mehreren Personen für das Stromladen benutzt werden könne. […]
Zudem sei es ziemlich einfach, […] eine fremde Kartennummer zu erraten“14
Für viele der zuvor genannten Schwachstellen gibt es bereits technische Lösungen15. Zum Beispiel hilft ein virtuelles privates Netzwerk, die Kommunikation zwischen Ladesäule und Backend zu schützen. Doch im Falle des Ladevorgangs durch RFID-Karten ist die Unsicherheit durch die Hardware gegeben. Die darauf gespeicherten Vertragsnummern können leicht ausgelesen und kopiert werden. Dies ist zudem unabhängig von der Ladeinfrastruktur und kann auch auf der Straße beim Vorbeigehen mit spezieller Hardware oder durch das Abfangen einer E-Mail erfolgen, die die Vertragsnummer enthält.
Der Angreifer kann daraufhin auf Kosten des Opfers laden, da die Ladetransaktion nur anhand der Vertragsnummer authentifiziert wird. Eine Anpassung des ganzen Authentifizierungsvorgangs (Abb. 3) müsste folglich angestrebt werden. Ein Ansatz wäre beispielsweise, dass der Nutzer sich zusätzlich durch eine mobile Applikation ausweisen muss (Multifaktor Authentifizierung), was wiederum dem Konzept der leichten Benutzbarkeit und der Strategie zur Etablierung der E-Mobilität widerspricht. Der Nutzer soll durch eine einfache Handhabung überzeugt werden, den neuen ökologischen Schritt zu wagen.
Ein weiteres Angriffsszenario, welches nicht so leicht zu erkennen ist und daher einen hohen Schaden anrichten kann, bezieht sich auf das Ökosystem der E-Mobilität. Angenommen ein Angreifer schafft es als Charge Point Operator mit einem MSP zu kooperieren, dann könnte er anhand der gesammelten Ladedaten von echten Kunden auch falsche Transaktionen simulieren und über den MSP abrechnen lassen. Dadurch könnte der „falsche CPO“ einen wirtschaftlichen Gewinn erzielen, da gar keine Kosten für ihn angefallen sind. Bei kleinen Beträgen und einer hohen Diversifikation an Transaktionen mit vielen verschiedenen Kunden ist dies noch schwerer durch fest definierte Regeln festzustellen. Eine Lösung bietet da ein intelligentes System, welches anhand von historischen Daten ein Modell entwickelt und aufgrund diesem neue Ladetransaktionen auf Betrug hin verifizieren kann.
3. Betrug und Anomalien
3.1. Überblick
Innerhalb dieses Kapitels werden die Grundlagen des sogenannten „ Fraud Detection und Prevention “ herausgearbeitet. Dazu wird neben der Definition auch auf die Motivation und das Potential für einen Betrug anhand des „ Fraud Triangle “ Modells eingegangen.
Da es sich bei einem Betrug um eine Abweichung eines definierten Prozesses handelt, werden der Begriff der Anomalie und die unterschiedlichen Ausprägungen präzisiert.
3.2. Definition von Fraud
Für den Begriff „ Fraud “ beziehungsweise Betrug finden sich in der Literatur unterschiedliche Definitionen und Begrifflichkeiten. Dabei kommt es darauf an, in welchem Kontext und durch welchen Akteur die Straftat begangen wird. Ein Bericht der Beratungsfirma Kroll aus dem Jahr 2019 gibt eine Übersicht über die möglichen Ausprägungen (Abb. 4).
Bei internem Betrug handelt es sich beispielsweise um einen Mitarbeiter, der eine Straftat gegen das eigene Unternehmen ausübt. Dies wird auch als „ Occupational Fraud “ bezeichnet und wird anders definiert als der sogenannte Unternehmensbetrug oder externe Fraud.
Eine der ersten Definitionen ist auf das Jahr 1939 und den US-Soziologen Edwin H. Sutherland unter dem Begriff „ White Collar Crime “ zurückzuführen. Er definierte den Begriff wie folgt:
„[A] economic crime committed by a person of respectability and high social status in the course of an occupation. “ 16
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4: Übersicht über Betrugsszenarien und Akteure17
Über die Jahre hat sich der Begriff immer weiter entwickelt und finanzielle oder physische Aspekte erweitern den ursprünglichen Gedanken der Kriminalität. 2019 hat das Institute of Internal Auditors (IIA) folgende Definition veröffentlicht:
„ Fraud can be defined as any illegal act characterized by deceit, concealment, or violation of trust. These acts are not dependent upon the threat of violence or physical force. Frauds are perpetrated by parties and organizations to obtain money, property, or services; to avoid payment or loss of services; or to secure personal or business advantage . “ 18
Wirtschaftskriminalität und Betrug findet dabei nicht nur in Unternehmen selbst statt, sondern kann in jeder Situation immer und überall passieren. Ein Beispiel dafür ist das Internet. Das Thema Cybersecurity gewinnt an Präsenz. Allein in Deutschland sind im Jahr 2018 Schäden in Höhe von über 61 Millionen Euro19 entstanden und dabei muss dieser Wert sogar noch relativiert werden, da nicht jeder Betrugsfall auch wirklich in die Statistik mit eingerechnet wird. Dies hat unterschiedliche Gründe: auf der einen Seite fällt nicht jeder Betrug auf und es gibt folglich eine große Dunkelziffer an Fällen, die nie entdeckt werden. Zudem werden Vorfälle nicht immer durch Unternehmen oder Privatpersonen gemeldet, da der Aufwand nicht im Verhältnis zum Schaden steht oder auch der Imageschaden für kleine Unternehmen bei bekannt werden in den Medien oder auch gegenüber Kunden größere negative Auswirkungen hätte.
Die Ausprägung und die Höhe des Schadens sind zudem je nach Branche unterschiedlich. Einer Studie der ACFE (Association of Certified Fraud Examiners) aus dem Jahr 202020 zeigt, dass im letzten Jahr vorwiegend im Bankensektor, als auch in der Medizin-, Fertigungs- und Produktionsbranche die meisten Betrugsvorfälle verzeichnet wurden. Hingegen ist der höchste durchschnittliche wirtschaftliche Schaden in der Bergbauindustrie mit knapp 500.000 US-Dollar zu finden.
3.3. Fraud Triangle
Neben der Definition und der Relevanz von Vorfällen in der aktuellen Situation soll an dieser Stelle noch auf das Dreieck von Betrug (Fraud Triangle) eingegangen werden. Hierbei handelt es sich um ein Modell von Donald Ray Cressey aus dem 20. Jahrhundert, welches erklärt, welche Voraussetzungen erfüllt sein müssen, damit ein Betrugsfall zustande kommt. Es wird häufig als Instrument zur Einschätzung von Risiken aufgrund doloser Handlungen verwendet.
Dieses setzt sich, wie der Name bereits besagt, aus drei Faktoren zusammen: Motivation, Gelegenheit und Rechtfertigung. Die Motivation wird oft durch Druck initiiert, denn umso größer dieser ist, zum Beispiel auf Basis von finanziellen Nöten, einer Sucht oder dem Drang, jemandem zu schaden ist, desto höher ist die Bereitschaft, eine Straftat zu begehen. Neben dieser Motivation muss sich auch eine Gelegenheit ergeben, eine Tat zu verüben und das mit der Aussicht, diese möglichst gut verschleiern zu können, um den größtmöglichen Gewinn zu erzielen beziehungsweise nicht erwischt zu werden. Ein großes Wissen über Schwachstellen und Geheimnisse, das Vertrauen des Arbeitgebers oder sogar eine hohe Stellung im Unternehmen sind oft entsprechende Motive und auschlaggebend für eine Tat.
Die dritte Komponente befasst sich mit dem Thema der Rechtfertigung – vor allem sich selbst gegenüber. So ist das innere Gewissen oft auschlaggebend, ob eine Person einen Betrug ausübt oder nicht. Nach der Überführung eines Deliktes rechtfertigen sich die Angeklagten oft mit der Aussage: „Jeder macht es“, „das Unternehmen ist es mir schuldig“ oder „es ist für das Unternehmen“.21
Loebbecke, Eining und Willingham22 haben basierend auf dem Modell 1989 weitere Thesen verifiziert und kamen zu dem Ergebnis, dass die jeweiligen Faktoren multipliziert werden können. Je stärker ein Faktor dabei an Gewichtung zunimmt, desto höher wird die Gesamtwahrscheinlichkeit, dass eine Person dolos handelt. Geht jedoch ein Faktor gegen Null, so wird das Ergebnis als unwahrscheinlich erachtet.
Inzwischen wurde das Modell weiterentwickelt und das Dreieck wurde zu einem Diamanten umgeformt23. Diese vierte Dimension beschreibt dabei die Fähigkeiten, die eine Person besitzen muss. Dazu gehört auch eine gewisse Intelligenz und spezifisches Fachwissen.
Bezogen auf Ladetransaktionen kristallisiert sich der Punkt der Gelegenheit als stärkster Faktor heraus. Denn eine der beschriebenen Angriffsvektoren (Kapitel 2.4) kann aktuell leicht ausgenutzt und verschleiert werden, da es ohne größeren Aufwand nicht möglich ist, diese Art des Frauds aufzudecken. Dies macht das Risiko dieser Attacke so unvorhersehbar und gefährlich.
3.4. Anomalien
Das Nutzen derselben Ladekarte zur gleichen Zeit oder an sehr unterschiedlichen Geopositionen stellt ein ungewöhnliches Verhalten eines Nutzers dar. Dieses ungewöhnliche Verhalten kann auch als Anomalie beziehungsweise Ausreißer eines bestehenden Nutzerverhaltens bezeichnet werden. Anomalien sind folglich eine Abweichung von einem Muster. Die Einsatzmöglichkeiten zum Entdecken von Ausreißern sind vielfältig und kann sowohl für ungewöhnliche Zugriffe auf ein System, ein seltsames Verhalten eines IoT-Gerätes oder auch in der Wirtschaft genutzt werden, um während eines Geschäftsjahres relevante Key-Performance-Indikatoren auszumachen. Dabei sind manche Anomalien je nach Situation auch anders zu bewerten. In einem Fall lässt es auf einen Betrug oder einen Angriff schließen, im anderen kann es sich um einen Hardwarefehler handeln, welcher auf einen nötigen Austausch des Speichers hinweist.
Nicht nur die Interpretationsmöglichkeit ist vielfältig, sondern auch die Art der Erkennung muss je nach Typ unterschiedlich untersucht werden. Dabei werden drei Arten von Anomalien unterschieden, die im Folgenden weiter spezifiziert werden.
3.4.1. Punktuelle Anomalie
Eine punktuelle Anomalie liegt vor, wenn ein einzelner Punkt sich im Verhältnis zum Rest der Daten ungewöhnlich verhält. Ein Beispiel hierfür wäre, wenn ein Schüler, der konstant durchschnittliche Noten erzielt, plötzlich eine sehr gute Note erhält. Dann spiegelt dies nicht das ursprüngliche Verhalten wieder und es könnte davon ausgegangen werden, dass der Schüler eventuell in der Prüfung betrogen haben könnte.
In einem zweidimensionalen Raum würde eine Visualisierung dieser Anomalie wie in Abbildung 5 aussehen. Die Punkte , und möglicherweise auch das Cluster sind als punktuelle Ausreißer zu klassifizieren. Das Domänenwissen ist hierbei letztendlich ausschlaggebend für die Interpretation.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 5: Repräsentation Punktuelle Anomalie24
Zur Erkennung der Anomalie wird an dieser Stelle häufig mit Mittelwerten oder dem Median gearbeitet. Aber auch die Definition eines Schwellenwertes bietet sich an. Befindet sich ein Wert außerhalb dieses vordefinierten Fensters, wird von einer Anomalie gesprochen. Der Vorteil hierbei ist, dass diese Art der Anomalie leicht mit Datenbankanfragen oder einfachen programmatischen Funktionen erkannt werden kann.
3.4.2. Kontextuelle Anomalie
Kontextuelle Anomalien sind erst im Bezug zu anderen Daten zu erkennen. Anhand ihres Wertes oder Koordinaten weisen sie erst einmal kein außergewöhnliches Verhalten auf. Ein einfaches Beispiel, das diese Form repräsentiert, ist der Verlauf von Temperaturen anhand von Zeit (Abb. 6).
Angenommen zum Zeitpunkt im Dezember tritt eine niedrige Temperatur von um die null Grad Celsius auf, dann ist der Wert Null keine Anomalie. Tritt der gleiche Wert nun aber zum Zeitpunkt im Sommer auf, ist der Wert im kontextuellen Zusammenhang von Jahreszeiten ein Ausreißer.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 6: Repräsentation Kontextuelle Anomalie25
3.4.3. Kollektive Anomalie
Die letzte und vermutlich am schwierigsten zu erkennende Anomalie ist die kollektive Anomalie. Bei dieser sind ähnlich zur kontextuellen Anomalie die Werte an sich nicht auffällig. Werden die Daten jedoch in Gruppen analysiert, ergeben sich Muster, die abweichend sind. Gerade in der Medizinbranche im Bereich der Kardiologie sind solche Anomalien von großer Bedeutung. Der Begriff Extrasystole beschreibt ein unregelmäßiges Schlagen des Herzens in Form eines zusätzlichen Schlages (Abb. 7). Die Herzschläge weisen dabei alle gültige Werte auf, aber der Abstand der Datengruppen ist durch den zusätzlichen Schlag ungewöhnlich.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 7: Repräsentation Kollektive Anomalie26
4. Machine Learning
4.1. Überblick
In diesem Kapitel werden dem Leser die Grundlagen des Machine Learnings nähergebracht. Dadurch wird dieser in das dritte Kerngebiet dieser Arbeit eingeführt. Neben der allgemeinen Definition von Machine Learning und der Anwendung im Big Data Umfeld wird auf die spezifischen Techniken zur Erkennung von Anomalien eingegangen. Algorithmen werden evaluiert und anhand ihrer Bedeutung im Bereich der Betrugserkennung in der Literatur klassifiziert. Zusätzlich wird ein bekanntes Vorgehensmodell für Machine Learning Projekte vorgestellt, welches innerhalb dieser Arbeit zum Bewerten der Algorithmen angewendet wird.
4.2. Machine Learning
Machine Learning als Teilgebiet der künstlichen Intelligenz, Informatik und Statistik ist nicht nur ein Thema der Zukunft, sondern hat bereits im letzten Jahrzehnt ausschlaggebende Innovationen hervorgebracht. Filmvorschläge auf Netflix, Spracherkennung in Auto oder im Smart Home, aber auch Predictive Maintenance von Hardware sind dabei nur ein Ausschnitt an Einsatzgebieten für die automatisierten und datenbasierten Lernverfahren.
Doch ganz neu ist die Thematik nicht. Bereits Anfang des 20. Jahrhunderts wurden die ersten Grundsteine gelegt. Der Visionär Alan Turing bewies, dass menschliche Intelligenz und kognitive Prozesse durch Maschinen ausgeführt werden können und algorithmisierbar sind. Zudem wurde bereits 1956 das erste funktionierende KI-Programm geschrieben mit dem Namen „LOGIC THEORIST“, welches selbstständig logische Theoreme mathematisch beweisen konnte.27
Arthur Lee Samuel definierte den Begriff bereits im Jahr 1959 wie folgt:
„Machine learning gives computers the ability to learn without being explicitly programmed.“ 28
Das Frauenhofer Institut verfeinerte dabei die Definition in einer Publikation aus dem Jahr 2018 in Kooperation mit dem Bundesministerium für Bildung und Forschung:
„Maschinelles Lernen bezweckt die Generierung von »Wissen« aus »Erfahrung«, indem Lernalgorithmen aus Beispielen ein komplexes Modell entwickeln .“ 29
Folglich ist unter Machine Learning ein System zu verstehen, das Regeln beziehungsweise Verhaltensweisen aufgrund von Mustern und Gesetzmäßigkeiten in Daten erkennt und definiert. Darauf basierend können dann Vorhersagen abgeleitet werden. Dabei wird keine eigene für die Prognose relevante Funktion entwickelt, sondern bestehende Algorithmen genutzt, die anhand von Parametern und Gewichtungen ein Modell trainieren. Dieses kann so zuverlässige Aussagen für die spezifische Problemstellung treffen.
Mit wachsenden Daten und iterativen Trainingszyklen werden die Modelle und Parameter stetig präziser und auf die jeweiligen Datensätze optimiert. Einem möglichen Übertrainieren von Algorithmen auf Basis von restriktiven Datensätzen muss jedoch entgegengewirkt werden. Daher werden bei vielen Algorithmen die zur Verfügung stehenden Daten in mehrere Trainings- und Testdatensätze aufgeteilt, damit das Modell nicht nur anhand der Trainingsdaten berechnet und evaluiert wird und das Risiko des sogenannten „ Overfitting “ minimiert werden kann. Darauf wird in Kapitel 4.6 nochmals detaillierter eingegangen.
4.3. Big Data
„Information is the oil of the 21st century.“ 30
Tagtäglich umgeben wir uns mit unzähligen Mengen an Daten und erzeugen bei jeder Interaktion im World Wide Web, beim Nutzen von vernetzten Fahrzeugen oder auch beim Kauf eines Artikels im Supermarkt neue. Das Zitat von Peter Sondergaard aus dem Jahr 2011 ist nicht nur noch eine treffende Feststellung, sondern gehört zur Realität eines jeden Einzelnen.
Eine Studie von 2011 bis 2012 ergab, dass bereits ein Wachstum des Datenvolumens weltweit von 1,8 auf 2,7 Zettabyte31 zu verzeichnen war. Für das Jahr 2025 wird sogar mit einem Volumen von 175 Zettabyte32 gerechnet und der Trend ist darüber hinaus weiter ansteigend.
Das Ziel von Big Data ist es, einen Mehrwert für Unternehmen, Menschheit und Wirtschaft zu generieren und wird in der Literatur durch das V-Modell definiert, welches in fünf große Bereiche unterteilt wird. Dabei bildet nicht nur das große Volumen an Datenmenge eine Herausforderung im Big Data Umfeld, sondern auch die Vielfalt und Komplexität (Variety) an heterogenen Daten. Nicht jede Information gleicht einer anderen. Es wird zwischen strukturierten, semi-strukturierten und unstrukturierten Daten differenziert. Gerade in Bezug auf die Gewinnung von Wissen aus Daten müssen hier verschiedene Ansätze betrachtet werden, denn während eine Personenanschrift im CSV-Format als strukturierter Datensatz vorliegt, ist die Bedeutung eines Bildes oder Videos ohne menschliche Hilfe nur schwer zu interpretieren. Dazu kommt die hohe Datengeschwindigkeit und Unbeständigkeit (Velocity). Daten werden ständig geändert und neue kommen hinzu. Gleichzeitig müssen Echtzeitauswertungen auf die Daten angewendet werden, um Nutzern neuen Inhalt bereitzustellen oder Entscheidungen zur Laufzeit treffen zu können. Hier sei nur das Beispiel autonomes Fahren referenziert, bei welchem Millisekunden über Leben und Tod entscheiden können. Weiter sind die großen Datenmengen auch einer Richtigkeits- und einer Echtheitsprüfung zu unterziehen (Veracity), denn falsche Daten können bei der Interpretation schnell zu nicht zielführenden Ergebnissen führen.
Für Unternehmen stellen sich daher die Fragen: Welche Daten werden benötigt? Wie werden diese effizient gespeichert und vor allem, wie können diese effektiv genutzt werden, um einen Mehrwert für das Unternehmen zu schaffen und neue Geschäftsmodelle zu erschließen? Denn Daten bringen nur dann etwas, wenn aus diesen die richtigen Schlussfolgerungen gezogen und Entscheidungen abgeleitet werden können.
Durch technische Lösungen wie SQL/NoSQL -Datenbanken, Apache Spark, Hadoop oder In-Memory Techniken wird das Speichern und Prozessieren von großen Datenmengen ermöglicht. Auch mittels eines Data-Warehouses können Informationen über Daten gesammelt, aggregiert und ausgewertet werden. Bei der zuletzt genannten Option muss jedoch die Datensuche anhand vordefinierter Anfragen erfolgen und stellt daher ein großes Problem dar, da bereits im Vorhinein bekannt sein muss, was gesucht oder ausgewertet werden soll. Um hingegen dynamisch neue Muster in den Daten zu entdecken oder Zusammenhänge zwischen Interaktionen zu erkennen, bietet sich der vorgestellte Machine Learning-Ansatz an. Dieser soll innerhalb dieser Arbeit auch genutzt werden, um aus der Menge an Ladetransaktionen einen sicherheitsrelevanten Mehrwert hinsichtlich der Vorhersage und dem Schutz vor Falschtransaktionen zu generieren. Dazu sollen die unterschiedlichen Arten von Anomalien betrachtet werden, wobei der Hauptfokus auf den punktuellen und den kontextuellen Ausreißern liegt.
4.4. Techniken zur Erkennung von Anomalien
Zur Identifizierung von Anomalien existieren unterschiedliche Verfahren33. Diese bieten abhängig von den Eigenschaften der zu untersuchenden Daten und dem gewünschten Ziel verschiedene Methoden an und können in weitere Kategorien unterteilt werden. Zu unterscheiden gilt es vier Analysearten34:
1. Validierung anhand von Reputationslisten
2. Regelbasierte Methoden
3. Überwachtes Lernen
4. Unüberwachtes Lernen
Bei den ersten zwei Arten handelt es sich um einfache Modelle zur Erkennung von Anomalien. Der Fokus liegt dabei auf punktuellen Anomalien. Während bei Reputationslisten eine Verifizierung von neuen Daten gegen eine Art „ Blacklist “ erfolgt, um beispielsweise Anfragen von bestimmten IP-Adressen zu unterbinden, wird bei regelbasierten Methoden versucht, diese statischen Prüfungen dynamischer zu gestalten. Dazu werden beispielsweise Schwellenwerte oder Spannweiten definiert, durch welche valide oder nicht gültige Daten erkannt werden können. Oft werden dabei auch Kombinationen zur Erkennung erstellt. Ein hohe Netzwerkauslastung (Schwellenwert) innerhalb eines Firmennetzwerkes, welche außerhalb der typischen Geschäftszeiten (Spannweite) auftritt, lässt beispielsweise darauf schließen, dass hier eine Anomalie vorliegt.
Diese Verfahren haben den Nachteil, dass sie ständig verwaltet und erweitert werden müssen. Ändert sich zum Beispiel das Geschäftsmodell oder Server Kapazitäten werden skaliert, müssen die Schwellenwerte dementsprechend manuell angepasst werden, um einer erhöhte Benachrichtigungsquote von möglichen Fehlern entgegenzuwirken. Auch für Angreifer sind diese Modelle keine große Herausforderung. Denn hat ein solcher herausgefunden, auf Basis welcher Werte das System wie reagiert, kann er sein Verhalten dementsprechend so modifizieren, dass seine maliziösen Aktivitäten nicht entdeckt werden. Das System wird erst wieder angepasst, wenn Mitarbeiter die Regeln aktualisieren.
Dabei gehen Unternehmen mit dieser Strategie jedoch auch das Risiko ein, dass potentielle Kunden als eine falsche positive Anomalie identifiziert werden und die Firma sich durch den fehlenden Umsatz des kaufinteressierten Kunden selbst schadet. Daher bieten sich an dieser Stelle Methoden des Machine Learnings an. Hierbei werden die Modelle automatisiert trainiert und können von selbst aufgrund neuer Daten angepasst werden. Neue Muster, die Anomalien aufweisen, können somit schneller und effizienter zu jeder Tageszeit identifiziert werden. Wichtig dabei ist es jedoch, einen Algorithmus zu verwenden, der eine möglichst hohe Genauigkeit und Präzision bei der Vorhersage aufweist.
Bei den überwachten Lernverfahren („ supervised “) sind die Daten bereits mit ihrem Ausgangszustand (Output) gekennzeichnet. Es ist folglich bereits bekannt, ob es sich jeweils um eine Anomalie handelt oder nicht. Der Algorithmus kann anhand der Eingabedaten (unabhängige Variablen) und dem erwarteten Ergebnis (abhängige Variable) ein Modell berechnen und stetig aufgrund des „gelabelten“ Wertes verbessern. Diese Phase nennt sich Trainingsphase. Ziel ist es, mit diesem erlernten Modell die Erfahrungen auf neue Daten zu übertragen und diese korrekt vorherzusagen.
Dieses Vorgehen nennt sich überwachtes Lernen, da es sich wie ein Lehrer verhält, der das Modell anhand der gekennzeichneten Daten kontrolliert und korrigiert. Dieses zeigt sich vorwiegend beim bestärkenden Lernen, eine Unterart des überwachten Lernens. Hierbei wird mittels Belohnung und Bestrafung je nach Kategorisierung der Eingabedaten das Modell trainiert und optimiert.
Bei der Art des unüberwachten Lernens liegen keine gekennzeichneten Werte vor und bildet somit das Gegenteil zum überwachten Lernen. Die Algorithmen müssen durch die unabhängigen Variablen selbst eine Struktur in den Daten erkennen und Gemeinsamkeiten zwischen den Punkten berechnen. Hierzu werden in der Praxis oft Cluster-Algorithmen verwendet, welche anhand der Merkmale der Daten eine Distanz berechnen und nahe beieinander liegende Punkte als eine homogene Gruppe zusammenfügen. Ein Cluster hat dabei das Ziel, eine geringe Distanz zwischen den Punkten innerhalb des Clusters und eine große Distanz zu Punkten aus anderen Clustern zu besitzen.
4.5. Algorithmen zur Erkennung von Anomalie
Für den hier vorliegenden Anwendungsfall zur Erkennung von Betrug und Anomalien in Ladetransaktionen sind alle vorgestellten Techniken (Kapitel 4.4) denkbar. Doch gerade die letzten zwei Lernverfahren bieten bezüglich der Dynamik und des Umgangs bei Änderungen des Nutzerverhaltens bessere Möglichkeiten. Hier kann ohne großen Aufwand das Modell neu berechnet beziehungsweise in einer weiteren Iteration angepasst und evaluiert werden. Diese Optimierung von Modellen passiert bei großen Anbietern wie Netflix ständig und bietet die Möglichkeit, ständig neue Muster auszumachen. Gerade in Bezug auf Sicherheit und Betrug mit finanziellen und wirtschaftlichen Folgen ist es unabdingbar, Risiken so schnell wie möglich zu erkennen und zu verhindern. Ausschlaggebend für das Verwenden von Machine Learning Algorithmen ist somit die hohe Geschwindigkeit beim Berechnen, der Umgang mit vielen Daten und der damit verbundenen Skalierung, als auch die Effizienz der Algorithmen in Bezug auf das Vermeiden von falschen positiven und negativen Vorhersagen.
[...]
1 Schmidbauer, Jan (2017) BMW-Chef: “Autoindustrie steht vor größtem Umbruch aller Zeiten“.
2 Handelsblatt GmbH (2019) Vier Megatrends der Fortbewegung.
3 Fleutiaux, François (2018) Fahrzeug-Daten sind profitabler als das Auto selbst.
4 Robert Bosch GmbH (2020) Vernetzte Mobilität Schon heute sind Autos ein rollendes smart device.
5 PricewaterhouseCoopers GmbH (2017) Die fünf Dimensionen der Transformation der Automobilindustrie.
6 Bundesministerium für Wirtschaft und Energie (2019) Elektromobilität in Deutschland.
7 Dalheimer, Mathias (2017) Ladeinfrastruktur für Elektroautos: Ausbau statt Sicherheit [Video].; Dalheimer, Mathias (2017) Schwarzladen: Ladekarten manipulieren leicht gemacht.
8 Capgemini Invent, HYVE (2019) Wachstumsmarkt Ladeinfrastruktur in Deutschland.
9 Eigene Darstellung
10 Eigene Darstellung
11 Pruthvi, Thota Venkata / Dutta Niladri / Bobba Phaneendra Babu / Vesudeva B Sai (2019) Implementation of OCPP Protocol for Electric Vehicle Applications.
12 In Anlehnung an Koller, David (2020) Sicherheitsrisiken in der E-Mobilität. IT-Sicherheit und Standards der Ladeinfrastruktur. S. 9.
13 Rubio, Juan E. / Alcaraz, Cristina / Lopez, Javier (2018) Addressing Security in OCPP: Protection Against Man-in-the-Middle Attacks.
14 Frankfurter Rundschau GmbH (2019) Hacker deckt Problem bei Ladekarten für Stromtankstellen auf.
15 Koller, David (2020) Sicherheitsrisiken in der E-Mobilität. IT-Sicherheit und Standards der Ladeinfrastruktur. S. 20-26.
16 Gottschalk, Petter / Gunnesdal, Lars (2018) White-Collar Crime in the Shadow Economy. S. 1.
17 Kroll (2019) Global Fraud and Risk Report 2019/20. S. 6.
18 Institute of Internal Auditors (2019) Fraud And Internal Audit. S. 1.
19 Bundeskriminalamt (2019) Cybercrime. S. 49.
20 Association of Certified Fraud Examiners (2020) Report to the nations 2020 Global Study on occupational fraud and abuse. S. 27.
21 Baader, Galina (2018) Aufdeckung von Fraud im Einkaufsprozess durch die Kombination des Red Flag Ansatzes mit Process Mining. S. 27.
22 Ruhnke, Klaus / Schwind, Jochen (2006) Aufdeckung von fraud im Rahmen der Jahresabschlussprüfung.
23 Abdullahi, Rabi`u / Mansor, Noorhayati / Nuhu Muhammad Shahir (2015) Fraud Triangle Theory and Fraud Diamond Theory: Understanding the Convergent and Divergent for Future Research. S. 34 ff.
24 Chandola, Varun / Banerjee, Arindam / Kumar, Vipin (2009) Anomaly Detection: A Survey. S. 15:2.
25 Chandola, Varun / Banerjee, Arindam / Kumar, Vipin (2009) Anomaly Detection: A Survey. S. 15:8.
26 Ott, Torben (2019) Anomalie-Erkennung mit Machine Learning.
27 Manhart, Klaus (2020) Die kleine Geschichte der Künstlichen Intelligenz.
28 Elstner, Mario / Valerio, Roberto (2017) Betrugsprävention bei Online-Kreditanträgen mithilfe von Machine Learning. S. 249.
29 Frauenhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein (2018) Maschinelles Lernen Eine Analyse zu Kompetenzen, Forschung und Anwendung. S. 8.
30 Sondergaard, Peter (2011) Quote: Sondergaard on Data Analytics.
31 Schöne, Dietmar (2020) Planung und Reporting. Grundlagen, Business Intelligence, Mobile BI und Big-Data-Analytics. S. 298.
32 Kroker, Michael (2018) Weltweite Datenmengen sollen bis 2025 auf 175 Zetabytes wachsen – 8 mal so viel wie 2017.
33 Chalapathy, Raghavendra / Chawla, Sanjay (2019) Deep Learning for Anomaly Detection: A Survey. S. 3-4.
34 Zheng, Yuhao (2019) Building a Fraud Detection Platform using AI and Big Data [Video, 6:47].
- Quote paper
- David Koller (Author), 2020, IT-Sicherheit durch Künstliche Intelligenz im Bereich der E-Mobilität. Betrugserkennung und Prävention von unsicheren Ladeinfrastrukturen, Munich, GRIN Verlag, https://www.grin.com/document/973925
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.