Lakera / Check Point Software

Alexandra Hose,

„Crashtest“ für LLMs in KI-Agenten

Lakera und das britische AI Security Institute haben mit ‚b3’ einen neuen Open-Source-Benchmark vorgestellt. b3 ist ein Open-Source-Projekt zur Sicherheitsevaluierung, das speziell für den Schutz von Large Language Models (LLM) in KI-Agenten entworfen wurde.

Lakera-Mitgründer Mateo Rojas-Carulla © Lakera

Der Benchmark b3 wurde auf der Grundlage der neuen Idee namens Threat Snapshots (Bedrohungsschnappschüsse) gebaut. Statt einen kompletten KI-Agenten von Anfang bis Ende zu simulieren, vergrößern die Threat Snapshots als Ausschnitte die kritischen Punkte, wo Schwachstellen in LLM häufig auftreten.

Durch das Testen der Modelle an diesen bestimmten Punkten, können Entwickler sehen, wie robust ihre Systeme gegen Angriffe sind - und das ohne die Komplexität, die bisher nötig war, um einen vollständigen Agenten-Workflow zu modellieren. Quasi ein ‚Crashtest’ für KI-Agenten. 

LLM mit aktivierter Schlussfolgerung haben niedrigere Punktzahlen bei den Schwachstellen – niedriger ist besser – und sind somit weniger anfällig © Lakera, eine Check Point Company

„Wir haben den Benchmark b3 entwickelt, weil die heutigen KI-Agenten lediglich so sicher sind, wie die LLM, die sie befeuern,“ erklärt Lakera-Mitgründer Mateo Rojas-Carulla. „Diese Threat Snapshots erlauben es uns, systematisch nach Schwachstellen auf der Angriffsoberfläche zu suchen, die bislang in den komplexen Agenten-Workflows verborgen blieben."

b3 kombiniert zehn repräsentative Threat Snapshots mit 19.433 realen Cyberattacken aus dem gamifizierten Red-Teaming-Spiel ‚Gandalf: Agent Breaker’. Bewertet werden unter anderem Prompt-Exfiltration, Phishing-Link-Injection, Schadcode-Einschleusung, DoS und unautorisierte Tool-Aufrufe.

Anzeige

Die ersten Tests mit 31 gängigen LLM Modellen zeigen:

  • bessere Reasoning-Fähigkeiten steigern die Sicherheit
  • Modellgröße korreliert nicht mit der Security Performance
  • Closed-Source schneidet im Durchschnitt besser ab, aber Top-Open-Modelle holen auf

Der Benchmark-Report ist unter einer Open-Source-Lizenz einsehbar: https://arxiv.org/pdf/2510.22620

Gandalf: Agent Breaker ist ein Hacking-Simulator-Spiel, bei dem man aufgefordert wird, KI-Agenten in realistischen Szenarien zu knacken und auszunutzen. Die zehn GenAI-Anwendungen im Spiel simulieren das Verhalten eines realen KI-Agenten. Jede Anwendung verfügt über mehrere Schwierigkeitsstufen, mehrschichtige Abwehrmechanismen und neuartige Angriffsflächen, die eine Reihe von Fähigkeiten herausfordern, von Prompt Engineering bis hin zu Red Teaming. Einige der Apps sind Chat-basiert, während andere auf Code-Level-Denken, Dateiverarbeitung, Speicher oder der Verwendung externer Tools beruhen.

 
  • Xing Icon
  • LinkedIn Icon
Anzeige
zurück zur Themenseite
Anzeige

Das könnte Sie auch interessieren

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Jetzt Newsletter abonnieren