Lakera / Check Point Software
„Crashtest“ für LLMs in KI-Agenten
Lakera und das britische AI Security Institute haben mit ‚b3’ einen neuen Open-Source-Benchmark vorgestellt. b3 ist ein Open-Source-Projekt zur Sicherheitsevaluierung, das speziell für den Schutz von Large Language Models (LLM) in KI-Agenten entworfen wurde.
Der Benchmark b3 wurde auf der Grundlage der neuen Idee namens Threat Snapshots (Bedrohungsschnappschüsse) gebaut. Statt einen kompletten KI-Agenten von Anfang bis Ende zu simulieren, vergrößern die Threat Snapshots als Ausschnitte die kritischen Punkte, wo Schwachstellen in LLM häufig auftreten.
Durch das Testen der Modelle an diesen bestimmten Punkten, können Entwickler sehen, wie robust ihre Systeme gegen Angriffe sind - und das ohne die Komplexität, die bisher nötig war, um einen vollständigen Agenten-Workflow zu modellieren. Quasi ein ‚Crashtest’ für KI-Agenten.
„Wir haben den Benchmark b3 entwickelt, weil die heutigen KI-Agenten lediglich so sicher sind, wie die LLM, die sie befeuern,“ erklärt Lakera-Mitgründer Mateo Rojas-Carulla. „Diese Threat Snapshots erlauben es uns, systematisch nach Schwachstellen auf der Angriffsoberfläche zu suchen, die bislang in den komplexen Agenten-Workflows verborgen blieben."
b3 kombiniert zehn repräsentative Threat Snapshots mit 19.433 realen Cyberattacken aus dem gamifizierten Red-Teaming-Spiel ‚Gandalf: Agent Breaker’. Bewertet werden unter anderem Prompt-Exfiltration, Phishing-Link-Injection, Schadcode-Einschleusung, DoS und unautorisierte Tool-Aufrufe.
Die ersten Tests mit 31 gängigen LLM Modellen zeigen:
- bessere Reasoning-Fähigkeiten steigern die Sicherheit
- Modellgröße korreliert nicht mit der Security Performance
- Closed-Source schneidet im Durchschnitt besser ab, aber Top-Open-Modelle holen auf
Der Benchmark-Report ist unter einer Open-Source-Lizenz einsehbar: https://arxiv.org/pdf/2510.22620
| Gandalf: Agent Breaker ist ein Hacking-Simulator-Spiel, bei dem man aufgefordert wird, KI-Agenten in realistischen Szenarien zu knacken und auszunutzen. Die zehn GenAI-Anwendungen im Spiel simulieren das Verhalten eines realen KI-Agenten. Jede Anwendung verfügt über mehrere Schwierigkeitsstufen, mehrschichtige Abwehrmechanismen und neuartige Angriffsflächen, die eine Reihe von Fähigkeiten herausfordern, von Prompt Engineering bis hin zu Red Teaming. Einige der Apps sind Chat-basiert, während andere auf Code-Level-Denken, Dateiverarbeitung, Speicher oder der Verwendung externer Tools beruhen. |












