Inwieweit kann Deep Learning heutige Anwender-Erwartungen erfüllen? – Alles eine Frage der Kombination zwischen Deep Learning und traditioneller Bildverarbeitung, meinen Dr. Olaf Munkel und Christian Eckstein von MVTec.
Herr Eckstein, Deep Learning begegnet uns täglich – angefangen bei Anfragen an Suchmaschinen über automatische Übersetzungen bis zum individualisierten Filtern von Inhalten in sozialen Medien. Regelmäßig nutzen wir Entscheidungen, die Künstliche Intelligenz für uns trifft. Auch im industriellen Kontext steigt der Einsatz von KI. Wie funktioniert die Technologie im Vergleich zu traditionellen Ansätzen der Bildverarbeitung?
Christian Eckstein: Wenn wir in der Bildverarbeitung von Künstlicher Intelligenz sprechen, meinen wir damit in der Regel lernende Systeme, speziell Deep Learning. Dieses Lernen funktioniert bei den meisten Methoden analog zur Schule, wo ein Schüler die Aufgabe hat, ein Problem zu lösen. Bei einem traditionellen Ansatz würde der Schüler einem vorgegebenen Lösungsweg folgen, bei einem selbstlernenden Verfahren würde er mit einer Vielzahl von Aufgaben und deren Lösungen in einem iterativen Prozess selbst eine Lösung finden. Daraus folgt: Bei Deep Learning im Gegensatz zu traditioneller Bildverarbeitung beschreibt und verarbeitet ein Entwickler also nicht explizit Eigenschaften eines Bildes. Stattdessen werden auf großen Bilddatensätzen neuronale Netze trainiert, mit denen sich die relevanten Bildeigenschaften identifizieren und auswerten lassen. Dieser Ansatz kann bisher unlösbare Probleme meistern und hat in den vergangenen Jahren zu verblüffenden Erfolgen geführt.
Herr Dr. Munkelt, Sie behaupten, dass die Erwartungen an Deep Learning im Allgemeinen über dem liegen, was die Realität derzeit leisten kann. Warum ist das Ihrer Meinung nach so?
Dr. Olaf Munkelt: Die Erwartungen speisen sich zum einen aus den Medien und Werbebotschaften einiger Hersteller, zum anderen aus den direkten Erfahrungen der Menschen, die mit dieser Technologie privat in Berührung kommen. Und hier gibt es in vielen Bereichen erstaunliche neue Möglichkeiten, denken wir beispielsweise an digitale Assistenten oder selbstfahrende Autos.
Für die Industrie muss Deep Learning als eine neue Technologie aber erst den Nachweis erbringen, dass – und in welchen Bereichen – sie tatsächlich die bessere Variante ist. Dies muss im Rahmen relevanter, industrieller Anwendungen geschehen. Beweisen muss sich die Technologie beispielsweise in Bezug auf Investitionskosten, Geschwindigkeit, Qualität, Konstanz, Wartbarkeit und Nachvollziehbarkeit.
In welchen dieser Bereiche besteht denn noch Nachholbedarf in Bezug auf Deep Learning?
Dr. Olaf Munkelt: Nehmen wir das Beispiel Investitionskosten und Geschwindigkeit: Deep Learning ist für viele Anwendungen technisch eine gute Alternative, aber oft liegen Leistungs- und Speicherbedarf sehr hoch. Lernende Systeme können keine kreativen Lösungen erschaffen. Sie scheitern darin, Abkürzungen zu finden.
Stattdessen versuchen sie, das Problem mit Datenmenge und Rechenleistung zu bewältigen. Nochmal zurück zur Schul-Analogie: Ein selbst lernender Schüler würde alle Zahlen von 1 bis 100 geduldig aufsummieren; ein regelbasiertes System wie der kleine Gauß hingegen würde als Schüler die Gaußsche Summenformel anwenden und dasselbe Problem in einem Bruchteil der Zeit lösen. Effizienz und Konsistenz sind aber in industriellen Anwendungen von hoher Bedeutung – beispielsweise erfordern die strengen Taktzeiten industrieller Anlagen kurze und konstante Berechnungszyklen. Zudem benötigen viele Deep-Learning-Anwendungen performante Hardware mit hohem Energieprofil und Anschaffungskosten. Für Hochgeschwindigkeits-anwendungen ist Deep Learning daher in manchen Fällen noch zu langsam. Hier werden in der Praxis hoch ausdifferenzierte Systeme mit traditioneller Bildverarbeitung eingesetzt.
Wo liegen die Herausforderungen im praktischen Einsatz und in der Wartung?
Christian Eckstein: Industrielle Anlagen unterliegen kontinuierlichen Änderungen. Diese betreffen häufig auch die inspizierten Objekte oder die Umgebung, sodass auch die Bildverarbeitungskomponente entsprechend angepasst werden muss. Bei traditionellen Systemen wird dies meist durch die Anpassung der relevanten Steuerparameter gelöst. Bei einer Deep-Learning-Anwendung gibt es solche Parameter nur bedingt. Anders als es die Medien manchmal mit dem Begriff KI suggerieren, können lernende Systeme nur eng definierte Probleme höchst spezialisiert lösen. Die Generalisierbarkeit, also das Übertragen der Erkenntnisse auf ein ähnliches Problem, ist größtenteils ungelöst. Eine Anpassung der Parameter ist nur innerhalb der Nachverarbeitung möglich, die dann wieder mit traditioneller Bildverarbeitung durchgeführt wird. Ergo muss das Deep-Learning-Modell in der Regel mit neuen Daten nach der Änderung neu trainiert werden. Denn auch das Nachtrainieren eines Netzes mit neuen, zusätzlichen Bildern ist grundsätzlich ein ungelöstes Problem. Bei den aktuellen Ansätzen kommt es zu einem ‚katastrophalen Vergessen‘ des alten Wissens, oder es handelt sich lediglich um Workarounds.
Diese Anfälligkeit für veränderte Umweltbedingungen und der gelegentlich hohe Aufwand für die Beschaffung neuer Bilder und das anschließende erneute Training erweisen sich in der Praxis als Herausforderung. Um die Abhängigkeit von Umwelteinflüssen zu minimieren, wird Deep Learning in der Regel mit klassischer Bildverarbeitung für eine Vor- und Nachverarbeitung kombiniert. Nur so lässt sich das volle Potenzial ausschöpfen.
Viele Anwender zögern noch hinsichtlich des Einsatzes von Deep Learning, da KI-Lösungen angeblich weniger nachvollziehbar sind als regelbasierte Systeme. Ist diese Skepsis gerechtfertigt?
Dr. Olaf Munkelt: Die fehlende Nachvollziehbarkeit der Entscheidungen von Deep-Learning-basierten Systemen bildet aktuell in manchen Fällen noch ein Hindernis für den Einsatz der Technologie.
Stellen Sie sich folgendes Horrorszenario eines Qualitätsingenieurs vor: Ein Automobilhersteller startet eine Rückrufaktion. Verantwortlich dafür ist ein Bauteil, für dessen Qualität und Prüfung dieser Ingenieur zuständig war. Er benötigt jetzt die Dokumentation von nachvollziehbaren Kriterien, auf Grund deren er die Anlage abgenommen hat. Die Antwort auf die Frage, warum die Anlage die Teile für gut befunden hat, kann nicht sein, dass das neuronale Netz diese als Gutteile klassifiziert habe.
Im Gegensatz zu Deep Learning werden bei traditioneller Bildverarbeitung meist die Bildeigenschaften, auf deren Basis Entscheidungen getroffen werden, explizit beschrieben – dies vereinfacht die Nachvollziehbarkeit. MVTec beispielsweise bietet verschiedene Technologien an, um die ‚Black Box‘ eines neuronalen Netzwerks zu öffnen und die Nachvollziehbarkeit, speziell für industrielle Anwendungen, zu vereinfachen.
Wohin geht die Reise in der Forschung bei Deep Learning? Denken Sie, dass zukünftige Technologien in der Lage sein werden, die bisher ungelösten Probleme zu adressieren?
Christian Eckstein: Deep Learning erfreut sich massiver Investitionen in der Forschung, sowohl von institutioneller als auch von privater Seite. Dies führt zu Fortschritten in diesem Bereich wie zum Beispiel zur Entwicklung neuer Netzwerkarchitekturen.
Allerdings beobachten wir auch sinkende Erträge dieser Investitionen, sprich: Die erstaunlichen Zuwächse der Vergangenheit lassen sich so nicht wiederholen. Wir sollten nicht darauf hoffen, dass künftige Verbesserungen allein die ungelösten Fälle in den Griff bekommen, auch wenn momentan in der Forschung diese Ansicht vorherrscht. Stattdessen sehen wir in der Praxis immer stärker einen Fokus auf die Qualität der Datensätze, die den Netzen zugrunde liegen. Die Ansätze in der Forschung und der Praxis unterscheiden sich hier stark.
Inwiefern unterscheiden sich die Problemstellungen aus Forschung und Praxis rund um Deep Learning?
Christian Eckstein: Im Bereich Deep Learning startet die Forschung mit einem vorhandenen Datensatz. Die Forscher treten in dem Versuch gegeneinander an, die besten Netzarchitekturen zu entwickeln. So soll auf den bestehenden Daten das beste Ergebnis erzielt werden. Mit viel Rechenleistung und komplexer Mathematik übertreffen sie sich im Ergebnis um einige Prozente oder Bruchteile davon.
In der industriellen Praxis ist das Vorgehen umgekehrt: Hier startet der Anwender nicht mit einem bestehenden Datensatz, sondern er muss im ersten Schritt die Daten aufnehmen und annotieren.
Anwender in der Industrie nutzen oft einen ähnlichen Ansatz wie etwa die neuesten Open-Source-Experimente. Sie erhalten dadurch allerdings meist keine oder nur eine marginale Verbesserung im Ergebnis, trotz komplexer und leistungshungriger Modelle. Der Grund hierfür ist, dass die Datenmengen in der Praxis meist deutlich kleiner sind als in der Forschung. Dadurch lassen sich Fehler in der Annotation oder unterrepräsentierte Klassen nicht so einfach herausmitteln. Geringere Datenmengen benötigen kreative, intelligente und damit oft durch einen Bildverarbeitungsspezialisten programmierte Lösungen. So lässt sich mit geringeren Mitteln das beste Ergebnis erzielen.
Was die Leistungsfähigkeit entscheidend steigert, ist also der Fokus auf eine saubere, gut beschriebene Datenbasis und die Kombination von Deep Learning mit traditioneller Bildverarbeitung. Die entsprechenden Daten lassen sich durch gutes Projektmanagement und den Einsatz passender Tools generieren – beispielsweise des MVTec Deep Learning Tools. Am besten werden Deep Learning und traditionelle Bildverarbeitung kombiniert, wenn beide Technologien nahtlos in einer Lösung wie etwa MVTec Halcon ineinandergreifen.