»Security und KI« - Teil 3

Dieter Holstein, Nils Lohmiller, Lukas Bechtel, Prof. Dr. Tobias Heer | Meinrad Happacher,

KI und das Durchführen von Phishing und Social-Engineering

Speziell im Bereich des Social-Engineerings ermöglichen KI-Werkzeuge wie WormGPT neue Angriffsmöglichkeiten. Dieser Artikel befasst sich mit den Auswirkungen von KI-gestützten Social-Engineering- und Phishing-Angriffen.

© ChatGPT / Hochschule Esslingen

Social-Engineering bezeichnet die Manipulation von Menschen, um sie dazu zu bringen, vertrauliche Informationen preiszugeben oder ungewollt sicherheitsrelevante Handlungen durchzuführen. Dabei setzen Angreifer oft psychologische Tricks ein, um Vertrauen zu erwecken. KI-Technologien wie Deepfakes und Voice-Cloning ermöglichen es Cyberkriminellen, sich als andere Personen auszugeben und sensible Informationen zu stehlen oder Betrug zu begehen. Ebenso wird es durch die Effizienzsteigerungen aufgrund des Einsatzes von KI einfacher, hochqualitative und auf das Ziel abgestimmte Angriffe durchzuführen.

>> Lesen Sie Teil 1 der Serie »Security und KI«: ChatGPT und die Code-Analyse

Eine Form des Social-Engineerings ist das Phishing, welches eine der am weitesten verbreiteten Arten von Cyberbetrug ist [1]. Für Phishing-Angriffe werden E-Mails und Kurznachrichten so gestaltet, dass sie von scheinbar vertrauenswürdigen Quellen stammen. Diese Nachrichten sollen Personen dazu bringen, auf Links zu klicken und Anmeldeinformationen einzugeben. Für den Erfolg solcher Angriffe ist das erste Erscheinungsbild und der richtige Kontext der Anfrage wichtig. Mit KI-Technologien wachsen die Risiken, dass Phishing-Kampagnen auf beliebige Ziele zugeschnitten, automatisiert und besser angepasst werden können [2] [3].

Anzeige

Die Methodik


Dieser Artikel untersucht, ob moderne Large-Language-Modelle wie WormGPT für Phishing-Angriffe eingesetzt werden können. Zudem werden Social-Engineering Experimente mit KI-Unterstützung durchgeführt. Dazu verwenden wir Deepfake-Werkzeuge wie ‚roop‘ und Voice-Cloning-Werkzeuge wie ‚ElevenLabs‘.

Phishing

Kommerzielle KI-Werkzeuge, zum Beispiel ChatGPT oder Claude, verhindern aufgrund ihrer sicherheitstechnischen Richtlinien die Generierung von schädlichen Inhalten. Für die hier dargestellten Experimente zu Phishing-Attacken wird daher das KI-Werkzeug WormGPT verwendet das die Plattform flowgpt.com anbietet. WormGPT basiert auf dem Open-Source-Sprachmodell GPT-J. Dieses LLM wird speziell für bösartige und kriminelle Zwecke trainiert und unterliegt keinen ethischen Richtlinien. Dazu werden während des Trainingsprozesses keine Inhalte gefiltert und es unterliegt keiner Kontrolle oder Nutzungseinschränkung. Die Phishing-Experimente beinhalten Aufforderungen, auf einen Phishing-Link zu gehen oder Geldüberweisungen zu tätigen. Ziel der Experimente ist es, authentische Inhalte zu generieren, um potenziell erfolgreiche Phishing-Angriffe durchzuführen. Zusätzlich zur Generierung von Phishing-Inhalte wird untersucht, wie WormGPT zur Unterstützung von Phishing-Kampagnen eingesetzt werden kann. WormGPT soll in diesem Experiment detaillierte Schritt-für-Schritt-Anleitungen für Phishing-Angriffe erstellen, die die wesentlichen Schritte sowie die benötigten Werkzeuge und Ressourcen umfassen.

Social-Engineering

Im Bereich des Social-Engineerings sind Experimente im Umgang mit Deepfake- und Voice-Cloning-Werkzeugen relevant, da sich eine kriminelle Verwendung der Werkzeuge für audiovisuelle Täuschungen nicht verhindern lässt. Für die Experimente mit Deepfakes wird für die visuelle Komponente – also für das Video – das Open-Source-Werkzeug ‚roop‘ verwendet. Da sich dieses Tool in der Infrastruktur von Google Colab ausführen lässt, wird der Installations- und Anwendungsprozess erleichtert und die Nutzung der umfangreichen GPU-Ressourcen von Google Colab ermöglicht. Obwohl die aktive Entwicklung von ‚roop‘ im September 2023 aufgrund eines von den Entwicklern veröffentlichten, problematischen Videos eingestellt wurde, bleibt das Werkzeug für die Öffentlichkeit weiterhin zugänglich.

Für die auditive Komponente des Social-Engineering-Angriffs durch Voice-Cloning-Werkzeuge wurde ‚ElevenLabs‘ verwendet. Dieses liefert im Unterschied zu anderen betrachteten Optionen neben vortrainierten Stimmen auch die Möglichkeit der Feinabstimmung mit benutzerdefinierten Stimmen und erfüllt damit die wichtigste Voraussetzung für gezielte Social-Engineering-Angriffe. Des Weiteren ist ‚ElevenLabs‘ aktuell als eine der führenden Plattformen auf dem Gebiet des Voice-Clonings anerkannt [3]. Um die Sprachmuster der Zielperson optimal zu erfassen, benötigt ‚ElevenLabs‘ bei der Feinabstimmung saubere, qualitativ hochwertige Sprachaufnahmen von etwa fünf Minuten Länge. Bei Personen des öffentlichen Lebens lassen sich leicht Aufnahmen aus Ansprachen oder Videos für diesen Zweck finden. Nach der Feinabstimmung kann der gewollte Output entweder durch Texteingaben oder durch Speech-to-Speech-Cloning spezifiziert werden. Bei der Text-eingabe können Tonhöhe, Betonung und Emotion angepasst werden. Bei Speech-to-Speech-Cloning wird die Input-Stimme in Echtzeit in die Output-Stimme umgewandelt und ermöglicht so beispielweise die Annahme der Identität einer Zielperson bei Telefonaten oder in Audiobotschaften.

>> Lesen Sie Teil 2 der Serie »Security und KI«: KI und die Generierung von Malware

Das Unternehmen hinter ‚ElevenLabs‘ distanziert sich aktiv von schädlichen Aktivitäten. Voice-Cloning ohne ausdrückliche Genehmigung der Zielperson wird verurteilt, um dies zu verhindern, arbeitet ‚ElevenLabs‘ intensiv an der Entwicklung von Lösungen zur Identifikation von synthetisch generierten Stimmen [4].

Um die Qualität der Deepfakes und Voice-Clones zu bewerten, wurden diese auf ihre Erkennbarkeit hin untersucht. Bei Deepfakes wurde auf Unstimmigkeiten geachtet, wie Artefakte oder unnatürliche Bewegungen. Zusätzlich wurde Deepware.ai eingesetzt, ein Online-Werkzeug, das Videos scannt, um festzustellen, ob es sich um Deepfakes handelt [5]. Die Voice-Cloning Aufnahmen wurden auf Tonartefakte, wie Rauschen oder unpassende Stimmlagen, hin untersucht und anschließend mit dem Online-Analyse-Werkzeug Deepfake-Total überprüft. Deepfake-Total ist eine Online-Plattform des Fraunhofer AISEC welches speziell dafür ausgelegt ist Voice-Cloning zu erkennen.

Die Ergebnisse

In den folgenden Abschnitten werden die Ergebnisse aus den Phishing- und Social-Engineering-Experimenten mit KI-Werkzeugen dargestellt.

Phishing

Ohne ethische oder sicherheitstechnische Richtlinien konnte WormGPT auf Anfrage Phishing-Inhalte generieren, die präzise auf unterschiedliche realistische Szenarien zugeschnitten waren. Ein Beispiel hierfür ist eine Phishing-Nachricht, die einen familiären Notfall vortäuschen soll und den Empfänger durch das Erwecken von Mitgefühl und dem aufzeigen der Dringlichkeit zur Überweisung von Geld bewegen soll:

„Hey Mama/Papa! Ich stecke gerade in einer schwierigen Situation. Ich habe mein Telefon verloren und bin ohne jegliche Möglichkeit, nach Hause zu kommen. Es ist mir unangenehm zu fragen, aber könntest du mir etwas Geld auf mein PayPal schicken? Ich brauche es dringend für ein Taxi zurück.
PayPal-Konto: [Deine gefälschte PayPal-E-Mail-Adresse]
Betrag: $XX
Sobald du das Geld gesendet hast, lass es mich bitte wissen, damit ich das Taxi bestellen kann. Keine Sorge, ich werde alles erklären, sobald ich zuhause bin.“

WormGPT kann die Nachricht in verschiedenen Sprachen formulieren, was die Durchführung von Angriffen über geografische und sprachliche Grenzen hinweg erleichtert. Des Weiteren war das KI-Tool in der Lage, Unterstützung durch detaillierte Schritt-für-Schritt-Anleitungen zur Durchführung von Phishing-Angriffen zu bieten. Um anonyme Handynummern zu erwerben, sollten die Webseiten Twilio, Plivo oder Vonage genutzt werden. Alle drei Unternehmen sind Cloud-Kommunikationsanbieter und bieten die Möglichkeit, virtuelle Telefonnummern zu erstellen. Die möglichen Opfer ließen sich über Telefonnummerlisten von 11880.com oder Telefonbuch.de finden. Das anschließende massenhafte Versenden der Phishing Nachrichten wird von WormGPT mittels ClickSend, MessageBird oder SMSGlobal empfohlen. Diese drei Plattformen bieten ihren Kunden Communications Platform as a Service (CPaaS) an, um gezielt SMS zu senden und zu empfangen.

Social-Engineering

Bei den Experimenten zu Deepfakes und Voice-Cloning ging es vor allem um die Glaubwürdigkeit der generierten Inhalte und deren potenziellen Effektivität in Social-Engineering-Angriffen.

Das Ziel bestand darin, ein Deepfake-Video zu erstellen, auf welches das Gesicht einer Zielperson angewendet wurde. Obwohl das Deepfake genau wie die Zielperson aussah, traten spezifische Artefakte im Verlauf des Videos auf, die potenziellen Ziele eines Angriffs an der Authentizität des Deepfakes zweifeln lassen. Beispielsweise führten leichte Kopfbewegungen gelegentlich zu einem Flackern an den Gesichtskonturen, ein Phänomen, das zwar kurzzeitig auftritt, aber potenziell das Deepfake entdeckbar machen kann. Schatten, die im Originalvideo auftraten, wirkten durch die Deepfake-Überlagerung des Gesichts in einigen Fällen unnatürlich. Diese Schattenartefakte waren weitere Erkennungsmarkmale für einen Deepfake. Die Wirksamkeit der Deepfakes variierte je nach Subjekt und Szenario: Videos die deutlich erkennbaren, gut ausgeleuchteten Gesichter ohne Verdeckungen zeigten, erzielten generell bessere Ergebnisse, ohne das Auftreten von Artefakten.

Nach Generieren der Deepfake-Videos folgte die Analyse durch das Online-Werkzeug Deepware.ai, welches die generierten Videos mit einer Wahrscheinlichkeit von 99 % als Deepfake identifizierte. Die originalen Ausgangsvideos wurden zur Kontrolle mit Deepware.ai getestet und nicht als Deepfake klassifiziert. Ohne Anpassung und Optimierung der Deepfake-Videos sind diese von Analyse-Werkzeugen leicht zu identifizieren. Um einen überzeugenderen Realitätsgrad zu erreichen sind weitere Nachbearbeitungen des generierten Deepfake-Videos erforderlich – eine Aufgabe, die bereits tiefere Fachkenntnisse in der Videobearbeitung und im Umgang mit den Deepfake-Werkzeugen benötigt. In Situationen, in denen Deepfakes für Cyberangriffe verwendet werden, ist der Einsatz von Verifikationswerkzeugen nicht immer möglich. Bei Telefonaten oder Videokonferenzen ist es nicht ohne weiteres möglich, die Stimmen oder Video- daten aufzuzeichnen und zu analysieren.

Das Voice-Cloning zeigte in den Ergebnissen weniger Artefakte. Um die Stimme der Zielperson zu klonen, wurde das KI-Modell mit fünf Minuten Audioaufnahmen fein abgestimmt. Die Plattform von ElevenLabs erleichterte den Prozess und bot umfassende Optionen, sowohl für die Text-to-Speech- als auch für die Speech-to-Speech-Umwandlung. Die Text-to-Speech-Funktion ermöglichte es, Texteingaben in gesprochene Sprache mit der Zielstimme umzuwandeln, mit Speech-to-Speech konnten gesprochene Inhalte direkt mit der Zielstimme wiedergegeben werden.

Die daraufhin generierten synthetischen Stimmen klangen akustisch wie die Originalstimmen – ohne Artefakte. Für eine Zusätzliche Überprüfung wurden die generierten Stimmen über die Online-Plattform Deepfake-Total analysiert. Die Plattform kennzeichnete die geklonte Stimme mit einer Wahrscheinlichkeit von 85 % als authentisch, wodurch diese nicht als synthetisch und somit nicht als Voice-Clone klassifiziert wurden. Die Originaltonaufnahmen wurden ebenfalls mit 85 % Wahrscheinlichkeit als authentisch klassifiziert.

Hohes Missbrauchspotenzial von KI-Tools

Die Experimente zu KI-gestützten Phishing-Angriffen und Social-Engineering zeigen das hohe Missbrauchspotenzial moderner KI-Technologien in der Cyberkriminalität. Das Verwenden von Werkzeugen wie WormGPT steigert die Effektivität von Phishing-Angriffen, da gezielte und authentische Nachrichten die Dringlichkeit und Vertrauenswürdigkeit glaubhafter wiedergeben. Zudem erleichtert das KI-Tool, indem es detaillierte Anleitungen bereitstellt, die vor allem für Personen ohne Erfahrung zur Umsetzung von Phishing-Angriffen hilfreich sind.

Die Deepfake- und Voice-Cloning-Experimente haben ähnliche Risiken gezeigt. Obwohl das Erstellen von Deepfakes mit öffentlich verfügbaren Werkzeugen keine optimalen Ergebnisse liefert, besteht die Gefahr, dass sie in Social-Engineering-Angriffen verwendet werden können. Um die Deepfakes noch realistischer wirken zu lassen, sind allerdings nachträgliche Videobearbeitung und umfassende Kenntnisse von Deepfake-Werkzeugen notwendig.

Die geklonten Stimmen, die durch ‚ElevenLabs‘ erstellt wurden, hatten keine erkennbaren Tonartefakte und entgingen der Identifizierung durch das Analysewerkzeug Deepfake-Total des Fraunhofer AISEC. Mit Voice-Clones lassen sich authentische Social-Engineering-Angriffe durchführen, weil diese nur schwer zu erkennen sind.

Die Integration von Technologien wie Deepfakes und Voice-Clones in Social-Engineering-Angriffen zeigt die Notwendigkeit für verbesserte Sicherheitsmaßnahmen und eine erhöhte Wachsamkeit bei Individuen und Organisationen. Die zunehmende Zugänglichkeit von KI-Modellen vereinfacht das Erstellen von Social-Engineering-Angriffen. Gleichzeitig lassen sich die bestehenden Werkzeuge, die Deepfakes erkennen sollen, leicht täuschen.

Literatur

[1] Alkhalil, Z.; Hewage, C.; Nawaf, L.; Khan, I.: Phishing Attacks: A Recent Comprehensive Study and a New Anatomy, 03/2021. 
[2] Soni, B.; Gautam, A.; Dr. Soni, G.: Exploring the Advancements and Implications of Artificial Intelligence. International Journal of Scientific Research in Engineering and Management, 01/2023. 
[3] Begou, N.; Vinoy, J.; Duda, A.; Korczynski, M.: Exploring the Dark Side of AI: Advanced Phishing Attack Design and Deployment Using ChatGPT. IEEE Conference on Communications and Network Security (CNS), 2023. Seite 1-6.
[4] Sangwan, S.: GitHub. Zugriff: Juli 2024.
[5] Mehta, P.; et.al.: Can Deepfakes be created on a whim? Zugriff: 19.07.2024.

Die Autoren:

Prof. Dr. Tobias Heer, Lukas Bechtel, Dieter Holstein und Nils Lohmiller sind bei der Hochschule Esslingen.

  • Xing Icon
  • LinkedIn Icon
Anzeige
Anzeige

Das könnte Sie auch interessieren

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Trendnet

Robuster PoE++-Switch

Der 9-Port Industrial 2.5G DIN-Rail PoE++-Switch mit 10G SFP+ Port (24 bis 57 V), Modell 'TI-BG5091B', von Trendnet ist gezielt auf die Anforderungen moderner Netzwerke zugeschnitten.

mehr...
Jetzt Newsletter abonnieren