Machine Learning
Wie KI die Informationssicherheit verbessern kann
Die in der klassischen IT eingesetzten Schutzmaßnahmen in puncto Informationssicherheit sind für OT-Umgebungen in der Regel nicht geeignet. Abhilfe schaffen auf Machine Learning (ML) basierte Intrusion-Detection-Systeme (IDS).
Zunehmende Vernetzung und intelligente Systeme sind die treibenden Kräfte hinter Industrial Internet of Things (IIoT) und Industrie 4.0. Die hochgradige Vernetzung von IIoT-Geräten ermöglicht es, immer mehr Daten zu erfassen, zu verarbeiten und auszuwerten. Diese Daten sind die Basis für IIoT-Anwendungen wie Smart Manufacturing. Bei der Planung entsprechender Neuanlagen oder der Modernisierung bestehender Anlagen hin zu einer intelligenten Produktion wird die IT-Sicherheit nach wie vor sträflich vernachlässigt, was eine stetig wachsende Angriffsfläche zur Folge hat.
Aktuelle Beispiele untermauern die Brisanz der daraus resultierenden Vorfälle. So wurden in jüngster Vergangenheit auch namhafte Industrieunternehmen wie etwa der Maschinenbauer Krauss Maffei, der Aluminiumproduzent Norsk Hydro und der Baukonzern Porr Opfer von Cyber-Angriffen. Oft dienen mit dem Internet verbundene, aber nicht ausreichend gesicherte, Steuerungskomponenten als Einstiegspunkt in das Unternehmen. Oder ein Fernwartungszugang eines Mitarbeiters wird für den initialen Zugriff ins Netzwerk missbraucht. Dies sind nur zwei mögliche Angriffstypen, mit denen ein Hacker ein Firmennetz infiltrieren und dadurch weitere Systeme im Netzwerk gefährden kann. Wichtig zu wissen ist dabei: Härtungsmaßnahmen, wie sie aus der klassischen IT bekannt sind, lassen sich nicht ohne weiteres auf OT-Systeme übertragen.
Um sicherheitsrelevante Vorfälle möglichst schnell zu erkennen, sind Maßnahmen nötig, die über rein signaturbasierte Verfahren hinausgehen. Eine Detektion von Sicherheitsvorfällen ist bei regelbasierten Systemen zur ‚Intrusion Detection‘ nur bei bereits bekannten Angriffsvektoren möglich. Außerdem müssen dazu die Netzwerk-Struktur und der darin vorkommende Netzwerk-Verkehr bekannt sein. Auch die Aktualität der Regelwerke muss ständig gewährleistet sein. Dies gestaltet sich gerade im OT-Bereich sehr schwierig, da hier meist nur knappe Wartungsfenster existieren und keine festen Zeiten für Updates und Patches vorgesehen sind.
Hierarchische IDS-Architektur: Durch dezentrale Sensoren können Daten prozessnah erfasst und ausgewertet werden, was einerseits die Bandbreite schont und andererseits schnellere Reaktionen ermöglicht.
© TH DeggendorfViele aktuellen Publikationen untersuchen die Nutzung von Machine-Learning-Algorithmen zur Anomalie-Erkennung mit mehrstufigen komplexen Verfahren, die üblicherweise zentral ausgeführt werden. Hierbei werden mehrere Algorithmen miteinander verkettet, um bessere Ergebnisse zu erzielen. Die Nachteile dabei: Die Rechenkomplexität dieser Methodik ist durch die Anwendung mehrerer Algorithmen höher als bei einstufigen Verfahren, und es müssen sämtliche relevanten Daten zu der zentralen Instanz gesendet werden. Deshalb sind solche Ansätze für eine umfassende Erkennung von Sicherheitsvorfällen in Domänen mit ressourcenschwachen Systemen, wie sie in industriellen Netzwerken vorherrschen, ungeeignet.
Eine bessere Lösung ist eine verteilte Intrusion-Detection-System-Architektur (IDS), mit der sich Angriffe auf industrielle Netzwerke schnell erkennen und entsprechende Warnungen generieren lassen. Ein solches IDS wurde etwa am Institut Pro-tectIT der Technische Hochschule Deggendorf entwickelt. Das Kernkonzept dahinter ist, dass Sensoren – realisiert entweder als (kostengünstige) eingebettete Systeme oder als Agent auf den industriellen Komponenten selbst – dezentral Daten sammeln und diese Daten geeignet verarbeiten. Ein besonderes Augenmerk liegt dabei auf einer effizienten Feature-Vorverarbeitung. Komprimiert werden die gesammelten Features dann zu leistungsfähigeren Knoten gesendet, die entsprechende Kapazitäten besitzen, um aus den Daten Modelle zur Anomalie-Erkennung zu berechnen. Diese Modelle werden anschließend wieder an die Sensoren verteilt, die dadurch Vorfälle effizient prozessnah vor Ort erkennen und geeignete Alarme generieren können. Im Folgenden werden die Hauptmerkmale der IDS-Architektur näher erläutert.
ML zur Detektion von Sicherheitsvorfällen
Feature-Generierung aus den Daten: Die Vorverarbeitung der Daten und Auswahl der Features nimmt eine zentrale Rolle ein, um geeignete Modelle zur Erkennung von Sicherheitsvorfällen zu bilden.
© TH DeggendorfDurch eine verteilte IDS-Architektur in Kombination mit unsupervised Machine-Learning-Algorithmen kann das System auch bis dato unbekannte Angriffe schnell erkennen. Denn beim unsupervised Ma-chine Learning müssen die Daten keine Labels enthalten (normal beziehungsweise anormal). Ein Beispiel ist der Isolation Forest Algorithmus, der zur Gruppe der ‚Outlier Detection‘ gehört. Dieser Algorithmus ist in der Lage, Ausreißer zu detektieren ohne vorher die genauen Strukturen der Daten zu kennen. Hierfür wird versucht, Ausreißer durch Isolation von anderen Daten zu trennen. Die Hauptannahme ist dabei, dass sich Datenpunkte, die sich wesentlich von anderen unterscheiden (Anomalien), leichter von anderen (normalen) Daten separieren lassen. Für das Generieren eines Modells sind dazu nur kleine Sub-Sets an Daten, zum Beispiel ein Mitschnitt des Netzwerk-Verkehrs, erforderlich. Jedes dieser Sub-Sets wird für die Erzeugung eines Binärbaums (iTree) herangezogen. Mehrere dieser Binärbäume bilden das Modell (iForest), dass für die Klassifizierung beziehungsweise die Anomalie-Erkennung herangezogen wird.
Der Prozess des Machine Learning gliedert sich in der vorgestellten Architektur in zwei Phasen: Zuerst werden aus bestehenden Daten Modelle gebildet (Trainingsphase). Dazu erfassen Sensoren relevante Netzwerk-Daten. Die Platzierung der Sensoren bildet dabei eine wichtige Grundlage zur effektiven Überwachung eines Netzwerks. Hierfür bietet die vorgestellte Lösung mehrere Möglichkeiten.
- Als TAP-Device vor den jeweiligen Netzwerk-Komponenten/-Segmenten
- Betrieb der Sensoren an einem Mirror-ing-Port eines managed Switch
- Als Agent auf den eingesetzten indus-triellen Komponenten (zum Beispiel SPS, HMI)
Durch entsprechende Vorverarbeitung sind relevante Features extrahierbar. Diese Features beinhalten neben gängigen Eigenschaften, wie zum Beispiel MAC- und IP-Adressen, protokollspezifische Informationen (Modbus/TCP, Profinet etc.). Dadurch wird auch der normalerweise bei industriellen Prozessen vorherrschende Determinismus erlernt, was eine verbesserte Erkennungsrate zur Folge hat und außerdem die Anzahl der Fehlalarme reduziert. Die Effizienz des Algorithmus hängt stark von den genutzten Features ab. So ergeben sich die besten Erkennungs-raten nicht zwangsweise beim Einsatz aller verfügbaren Features. Hier gilt es bereits im Entwurf entsprechendes Wissen über Netzwerk-Protokolle oder Industrial Control Systems (ICS) einzubringen. Dadurch sind im Betrieb dann auch mit leicht-gewichtigen Algorithmen, wie Isolation Forest, vergleichsweise gute Ergebnisse erzielbar.
Um eine ideale Erkennungsrate bei möglichst wenigen Fehlalarmen (false positives) zu erreichen, ist es sinnvoll, die Auswahl der genutzten Features zu optimieren. Ein möglicher Ansatz, das beste Feature-Set zu finden, ist die Ermittlung durch Probieren aller möglichen Kombinationen. Dabei steigt jedoch die Anzahl der zu testenden Feature-Sets exponentiell mit der Anzahl der verfügbaren Features. Zu bevorzugen ist somit eine Methode zur Herleitung eines Feature-Sets anhand der Ergebnisse aktueller Tests im laufenden Betrieb.
Die erzeugten Modelle werden im nächs-ten Schritt wieder an die Sensoren verteilt. Da die eingesetzten Machine-Learning-Verfahren, wie etwa der Isolation Forest Algorithmus, besonders ressourcenschonend bezüglich Rechenleistung und Speicherbedarf sind, bedarf es in der zweiten Phase – der Testphase – weit weniger Ressourcen. Somit kann das Überprüfen auf Anomalien problemlos durch die Sensoren, die hauptsächlich auf eingebetteten Systemen umgesetzt sind, durchgeführt werden. Ein daraus resultierender entscheidender Aspekt ist, dass die IDS-Architektur gut skaliert und somit ideal für große Netzwerke geeignet ist.
Die Vorteile der dezentralen IDS-Architektur
Datenverarbeitung, Modellbildung und -verteilung: Eine Aufteilung von Trainings- und Testphase auf verschiedene Ebenen beziehungsweise Systeme ermöglicht eine kosteneffiziente Umsetzung von IDS in industriellen Netzwerken.
© TH DeggendorfEin signifikanter Vorteil der vorgestellten IDS-Architektur besteht darin, dass ein Knoten zur Modellbildung Daten von mehreren Sensoren empfangen kann und dadurch umfassendere Modelle entstehen. Bei einer systemischen Integration entsteht somit ein Abbild des gesamten Netzwerks. Dies ermöglicht eine holistische Anomalie-Erkennung. Als Kompromiss ist auch denkbar, Sensoren nur an kritischen Verbindungsknoten zu integrieren. Dadurch ließe sich die Anzahl der Sensoren drastisch verringern – allerdings zu Lasten der Überwachungsdichte und damit der Sicherheit. Hier kann eine individuelle Risikobewertung bei der Kosten-Nutzen-Analyse helfen um ein akzeptables Security Level festzulegen und resultierend eine geeignete Implementierungsstrategie abzuleiten.
Ein weiterer wesentlicher Faktor ist, dass die interne Architektur der Sensoren leicht erweiterbar ist. Einzelne Module lassen sich unkompliziert austauschen oder abändern, wodurch neue Machine-Learning-Verfahren einfach implementierbar sind. Weiter werden dadurch Abhängigkeiten – zum Beispiel vom verwendeten Kommunikations-Framework oder dem eingesetzten Angriffserkennungssystem der Sensoren – vermieden.
Autoren:
Karl Leidl ist Wissenschaftlicher Mitarbeiter an der Technischen Hochschule Deggendorf (THD);
Andreas Grzemba ist Vizepräsident für Forschung und Technologie-Transfer an der Technischen Hochschule Deggendorf.
















