Newtec

Dr. Patrik Feth,

Angemessene Genauigkeit von KI-Systemen

Der Einsatz von Künstlicher Intelligenz in industriellen Steuerungs- und Überwachungs-systemen nimmt zu. Damit verbunden sind neue Chancen, aber auch regulatorische Anforderungen. Besonders der Begriff ‚Genauigkeit‘ im EU AI Act wirft Fragen auf: Was ist ein angemessenes Maß?

© KI-generiert / NewTec

Viele KI-Systeme sind aus regulatorischer Sicht sogenannte ‚Hochrisiko-KI-Systeme‘. Laut Artikel 6 der EU-Verordnung über Künstliche Intelligenz (KI-VO), auch als EU AI Act bekannt, betrifft das bei Weitem nicht nur Systeme in sicherheitsrelevanten Produkten, sondern auch solche, die andere geschützte Grundwerte wie die Gesundheit oder das Recht auf Nichtdiskriminierung gefährden können. Für alle diese KI-Systeme fordert Art. 15 KI-VO u. a. ein "angemessenes Maß an Genauigkeit, Robustheit und Cybersicherheit".

Was bedeutet die ‚Genauigkeit‘ von KI?

Der Begriff ‚Genauigkeit‘ ist im KI-Kontext erklärungsbedürftig. Hersteller müssen ihn für ihre Anwendung so konkret fassen, dass er in Entwicklung, Validierung und Konformitätsbewertung einfließt.

Die KI-Verordnung (KI-VO) definiert ‚Genauigkeit‘ nicht präzise. Auch Normen wie ISO/IEC 22989:2022 (KI-Konzepte und Terminologie) oder ISO/IEC TR 5469:2024 (Funktionale Sicherheit und KI-Systeme) bleiben vage. Laut EU-Kommission beschreibt ‚Genauigkeit‘ allgemein die Fähigkeit eines KI-Systems, die vorgesehene Aufgabe zu erfüllen. Statistische Genauigkeit ist dabei nur eine von mehreren möglichen Leistungskennzahlen. Welche Metrik geeignet ist, hängt vom konkreten KI-System ab. Für Klassifizierungsaufgaben etwa kommen Konfusionstabelle, F-Score oder ROC-Kurve zum Einsatz. Entwickler müssen in Abhängigkeit vom Einsatzzweck selbst definieren, was Genauigkeit bedeutet.

Anzeige

Solange keine verbindlichen Normen für Genauigkeits-anforderungen existieren, stellt sich die Frage: Wie können Hersteller fundierte Aussagen über die Genauigkeit treffen?

Ein Ansatz liegt im Rückgriff auf Methoden der funktionalen Sicherheit (FuSi). Diese verfolgt das Ziel, Risiken technischer Systeme, etwa durch Fehlfunktionen, auf ein tolerierbares Maß zu reduzieren. Neben Hardware- oder Entwicklungsfehlern rücken seit einigen Jahren auch Funktionsmängel (Functional Insufficiencies) in den Fokus, etwa bei Sensoren im Kontext des autonomen Fahrens. Die Norm ISO 21448 beschreibt seit 2019 entsprechende Risiken im Rahmen der ‚Safety Of The Intended Functionality‘ (SOTIF).

Ein Beispiel: Eine Lichtschranke kann bei ungünstigen Lichtverhältnissen unzuverlässig arbeiten. Das damit verbundene Risiko ist abhängig vom konkreten Einsatzszenario. Daraus ergibt sich, welche Mindestgenauigkeit das Sensorsystem erfüllen muss, um sicher zu funktionieren. Für KI-Systeme lässt sich dieses Vorgehen analog anwenden.

Drei Schritte zur ‚angemessenen Genauigkeit‘

Das Prozedere umfasst drei Schritte: Systemanalyse mit Fehlerbetrachtung, Risikobewertung und Verifizierung durch Tests und statistische Analyse. Wir stellen diese Schritte am Beispiel eines Sensorsystems und eines KI-unterstützten Kamerasystems vor.

Schritt 1: Detaillierte Systemanalyse:

Die Systemanalyse betrachtet das Zusammenspiel sämtlicher Komponenten, legt Anforderungen dafür fest und identifiziert mögliche Gefahren, wenn durch Fehler oder Funktionsmängel bestimmte Anforderungen nicht erfüllt werden. Im Safety-Engineering kommen dafür spezielle Verfahren wie FTA (Fault Tree Analysis) oder FMEA (Failure Mode and Effect Analysis) zur Anwendung.

Zum Beispiel ist bei einer Sicherheitslichtschranke ein bestimmtes Detektionsvermögen (Auflösung) des Sensorsystems erforderlich; es ist abhängig von der Größe der Objekte, deren Eindringen ins Schutzfeld verhindert werden soll. Die Systemanalyse muss unter anderem prüfen, welche Umstände oder Ereignisse im Betrieb dazu führen können, dass diese Anforderung nicht erfüllt wird, wenn zum Beispiel ein Sensor oder Strahl ausfällt und die Auflösung sinkt.

Auch für KI-Systeme sind im Rahmen einer umfassenden Systemanalyse Anforderungen zu definieren, die sicherstellen, dass das System seinen Zweck erfüllt. Das betrifft auch die Genauigkeit, zum Beispiel die Zuverlässigkeit, mit der ein Kamerasystem mittels KI verschiedene Objekte erkennt. Die Systemanalyse muss untersuchen, welche Faktoren die Erkennung beeinflussen (Qualität der Trainingsdaten, Lichtverhältnisse etc.) und wie daraus Fehler in anderen Komponenten des Systems und Risiken resultieren können. Aus der Analyse ergeben sich bestimmte Spezifikationen, etwa eine geforderte Erkennungsleistung (Genauigkeit) von > 95 % bei definierten Rahmenbedingungen und Objekteigenschaften.

Schritt 2: Risikobewertung:

Sind die Anforderungen festgelegt und die möglichen Fehlerketten analysiert, müssen die Risiken bewertet werden, die entstehen, wenn Anforderungen nicht erfüllt werden. Ist ein Risiko nicht akzeptabel, muss es durch Maßnahmen reduziert werden.

Bei der Sicherheitslichtschranke müssen die Entwickler beispielsweise das Risiko bewerten, dass ein Sensor ausfällt oder bei bestimmten Lichtverhältnissen nicht zuverlässig reagiert. Bei nicht akzeptablen Risiken müssen sie gegebenenfalls Design, Konstruktion oder Vorgaben zur Betriebs- umgebung ändern.

Beim KI-Kamerasystem sind entsprechend die Risiken zu bewerten, wenn Objekte nicht korrekt erkannt werden. Es kommt aber noch ein weiteres Problem hinzu: Im Unterschied zum Sensor wird unser KI-Kamerasystem auch bei absolut identischen Umgebungsbedingungen keine identischen Erkennungsleistungen zeigen – der Output von KI-Systemen weist eine bestimmte Varianz auf.

Ist also eine Erkennungsleistung von mindestens 95 % gefordert, reicht es noch nicht aus, wenn das System bei Tests mehr als 95 % korrekte Output-Werte liefert. Varianz erzeugt Unsicherheit; die Frage lautet also, wie viel Unsicherheit ist akzeptabel, so dass ein zufälliger Output-Wert korrekt ist.

Oder: Welches Maß an Vertrauen ist erforderlich, damit das KI-System das Genauigkeitsniveau von 95 % erreicht? Dieses Maß ergibt sich aus der Bewertung des Risikos, das inkorrekte Output-Werte verursachen. Bei statistischen Analysen wird dieses Vertrauen durch das Konfidenzniveau ausgedrückt. Es gibt die Wahrscheinlichkeit an, dass ein Output-Wert innerhalb des Konfidenzintervalls liegt, also in dem Bereich, in dem sich bei gegebener Varianz 95 % aller Output-Werte befinden.

Je höher das Risiko, desto höher muss auch das Vertrauen (das Konfidenzniveau) sein, dass der Zielwert für die Genauigkeit erreicht wird. Für die spezifischen Anforderungen eines Systems kann man entsprechende Zielwerte für das Vertrauen festlegen (Tabelle). Die statistische Analyse muss dann prüfen, ob das gewünschte Konfidenzniveau erreicht wird.

Gefährdungslevel Konfidenzniveau
Geringes Risiko 90 %
Mittleres Risiko 95 %
Hohes Risiko 99 %

Tabelle: Beispielhafte Zielwerte für das angestrebte Vertrauen.

Schritt 3: Tests und statistische Analyse:

Durch Tests wird sichergestellt, dass die ermittelten Spezifikationen vom System eingehalten werden. Für die Lichtschranke schreibt IEC 61496-2 genaue Prüfverfahren vor: Mit kalibrierten Prüfstäben wird das Eindringen ins Schutzfeld simuliert; unter verschiedenen Umgebungs- und Fehlerbedingungen. Besteht das Gerät jede Prüfung, gelten die festgelegten Anforderungen als nachgewiesen.

Bild 1: Ermittelte Konfidenz. © Newtec

Für das KI-System gibt es noch keine Norm. Generell werden KI-Systeme mit repräsentativen Testdaten (zum Beispiel Bildern oder Videosequenzen) geprüft, die sämtliche in der Systemanalyse identifizierten Szenarien und Fehlerbedingungen abdecken. Zusätzlich muss eine statistische Analyse der Testergebnisse durchgeführt werden. Diese ergibt beispielsweise, dass die KI für die gesamte Stichprobe eine durchschnittliche Genauigkeit von 97,5 % bei einer Varianz von 1,6 % erreicht. Für einzelne Teilmengen der Testdaten sind die Genauigkeitswerte annähernd normalverteilt (zentraler Grenzwertsatz); aus der kumulativen Dichtefunktion dieser Normalverteilung lässt sich die Wahrscheinlichkeit dafür ableiten, dass der Genauigkeitswert bei 95 % oder höher (= Konfidenzintervall) liegt, also das Konfidenzniveau (s. Grafik).

Aus der Grafik lässt sich ablesen, dass die geforderte Genauigkeit von 95 % oder besser mit einer Wahrscheinlichkeit von höchstens 95 % erreicht wird; für den Mittelwert von 97,5 % gilt nur ein Konfidenzniveau von 50 %. Gemäß der Tabelle würde dies nur für Anwendungen mit mittlerem Risiko ausreichen.

Funktionale Sicherheit als Blaupause

Methoden der funktionalen Sicherheit helfen bei der Festlegung und Prüfung eines "angemessenen Maßes an Genauigkeit" für KI-Systeme in drei Schritten:

Der Autor: Dr. Patrik Feth ist Senior AI Safety Consultant bei NewTec. © NewTec
  1. Im Rahmen einer Systemanalyse wird ermittelt, welche Genauigkeit für die Erfüllung der jeweiligen Aufgabe des Systems erforderlich ist.
  2. Die Risikobewertung liefert die Basis für das notwendige Maximum an akzeptabler Unsicherheit bzw. das Mindestmaß an Vertrauen (Konfidenz) in die Funktion der KI.
  3. Die zur Verifizierung durchgeführten Tests müssen statistisch analysiert werden, um zu prüfen, dass das für einen bestimmten Gefährdungsgrad geforderte Konfidenzniveau erreicht wird.

Dieses Vorgehen hilft, die Vorgaben des EU AI Act für ‚Hochrisiko-Systeme‘ umzusetzen, der dafür nicht nur ‚Genauigkeit‘, sondern auch Risikomanagement fordert (Art. 9 KI-VO). Es unterstützt zudem eine realistische Einschätzung der Einsatzmöglichkeiten von KI-Technologie, auch im sicherheitsrelevanten Kontext.

KI-Sicherheitsbewertung bei industriellen Anwendungen

Ein strukturierter KI-Sicherheitscheck wie der ‚KI-Safety-Check‘ von NewTec kann Herstellern helfen zu beurteilen, ob ihre KI-Technologie funktionale Sicherheitsanforderungen und regulatorische Vorgaben erfüllt. Der vom TÜV Rheinland unterstützte Service ist ein zentraler Bestandteil der KI-Services von NewTec. Diese umfassen:
• Identifikation spezifischer Fehlermodi der verwen- deten KI-Technologie
• Analyse der möglichen Fehlerfortpflanzung entlang des Informationsflusses im Systemkontext
• Analyse der durch mögliche KI-Ausfälle verursach- ten Risiken
• Ableitung von Zielwerten für die funktionale Eignung der KI-Technologie (z. B. notwendige Genauigkeit)
• Validierung der Zielwerte in Hinblick auf Erreichbar- keit mit der notwendigen Konfidenz
• Hardwareanalyse zur Ermittlung der Wahrschein- lichkeit zufälliger Fehler
• Analyse der spezifischen Entwicklungsprozesse der verwendeten KI-Technologie
• Aufbereitung der erarbeiteten Inhalte und Vorberei- tung einer Vorstellung vor Prüfstellen
  • Xing Icon
  • LinkedIn Icon
Anzeige
zurück zur Themenseite
Anzeige

Das könnte Sie auch interessieren

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Jetzt Newsletter abonnieren