Klassische Pick-and-Place-Aufgaben werden in der Industrie noch immer zum Großteil von Menschen verrichtet. Doch Künstliche Intelligenz kann zu einem entscheidenden Wandel führen – so lassen sich auch Prozesse der Robotik im Machine Vision-Umfeld durch KI automatisieren.
Die industrielle Automatisierung durchlebt branchenübergreifend einen Paradigmenwechsel: Auf der einen Seite gibt es verbesserte Rechen- und enorm hohe Datenübertragungsleistungen, die auch die Weiterentwicklung künstlicher Intelligenzen exponentiell vorantreiben. Auf der anderen Seite treffen diese Entwicklungen auf Faktoren wie Fachkräftemangel oder zunehmende Reshoring-Aktivitäten der Unternehmen.
Da mit Hilfe von KI auch Prozesse automatisiert werden können, die sich sonst nur durch menschliche Entscheidungen abwickeln und steuern lassen, entstehen günstige Voraussetzungen, die die Entwicklungen in der Automatisierungstechnik über alle Branchen hinweg beschleunigen werden und – in Anbetracht der Volatilität der Märkte – auch müssen. Automation im industriellen Umfeld steht bis heute unter anderem gleichbedeutend für wiederkehrende Prozesse, die unter Zuhilfenahme von Robotik stattfinden und beispielsweise Pick-and-Place-Prozesse realisieren.
Es gibt kaum eine Branche, in der klassische Delta-Roboter nicht ihren Platz im Fertigungsprozess haben. Zentraler Bestandteil solcher Pick-and-Place-Applikationen sind zumeist auch Vision-Systeme. Sie haben die Aufgabe, die auf dem Band zugeführten Produkte anhand spezifischer Parameter eindeutig zu identifizieren und damit das Handling durch den Roboter zu unterstützen.
Einige Branchen allerdings kommen an dieser Stelle bis dato nicht ohne Mitarbeitende aus: Sie übernehmen zum Beispiel Kontrollen feinster Abweichungen, die von der Bildverarbeitung (ohne KI) nicht oder nur bedingt erkannt werden können. Oft sind es die letzten 10 %, die eine menschliche Interaktion zur Qualitätssicherung erfordern. Mitarbeitende sortieren also vor oder korrigieren aufgetretene Fehler – eine körperlich und mental nicht zu unterschätzende Aufgabe.
An diesem Punkt kann Künstliche Intelligenz unterstützen: Denn sie ist schnell, robust, arbeitet nahezu fehlerfrei und macht keine Pausen. Damit ist sie bereits heute dem Menschen dort überlegen, wo Arbeitsabläufe kontinuierlich mit gleichbleibend hoher Leistung und Qualität ausgeführt werden müssen. Warum also nicht KI im Machine Vision-Umfeld im Zusammenspiel mit Robotik einsetzen? Das Beispiel eines »smarten Greifvorgangs« mag zur Veranschaulichung dienen: Bei diesem Vorgang müssen verschiedene Disziplinen optimal zusammenarbeiten.
Lautet die Aufgabe beispielsweise, Produkte von unterschiedlicher Größe und/oder Form, unterschiedlichem Material oder auch wechselnder Qualität roboterbasiert zu sortieren, muss nicht nur gegriffen, sondern zuvor identifiziert, analysiert und lokalisiert werden. Dies ist mit regelbasiert arbeitenden Bildverarbeitungssystemen gerade in kleinen Losgrößen oft nicht nur sehr aufwendig, sondern auch kaum wirtschaftlich lösbar. Anders bei KI-basierter Inferenz, bei der Industrierobotern die notwendigen Fähigkeiten und das Produktwissen eines Facharbeiters antrainiert werden.
Die KI ist in der Lage, Schlussfolgerungen aus neuen Fakten zu ziehen, die sie aus bereits existierenden Daten ableitet. Dabei muss für die einzelnen Teilaufgaben »das Rad nicht einmal mehr neu erfunden« werden – es genügt, die richtigen Produkte interdisziplinär als »smartes Robot Vision System« effektiv zusammen arbeiten zu lassen.
Mit dem sogenannten »Vision Guided Robot« – auch Eyebot genannt – liegt ein Beispiel vor, wie Pick-and-Place-Aufgaben intelligent automatisiert werden können: Dank einem smarten Kamerasystem mit integrierter KI-basierter Bildverarbeitung benötigt die kompakte Embedded Vision-Plattform keinen PC. Die Vision-Lösung kann von der Bildaufnahme über die Bildanalyse und -verarbeitung bis zur Steuerung industrieller Fertigungsmaschinen alles leisten. Der smarte Greifvorgang gestaltet sich in einer Fertigungslinie dann folgendermaßen: Objekte liegen zufällig verstreut auf einem Förderband.
Sie werden erkannt, ausgewählt und zum Beispiel in eine Verpackung gelegt oder für eine Verarbeitungs- beziehungsweise Analysestation lagerichtig weitergereicht. Grundlage für die hier beschriebene automatisierte Applikation war eine vom Software-Unternehmen urobots entwickelte PC-basierte Lösung zur Erfassung von Objekten und zur Robotersteuerung. Das von urobots trainierte KI-Modell ist in der Lage, die Position und Orientierung der Objekte in Kamerabildern zu erkennen. Aus diesen Daten werden Griffkoordinaten für den Roboter ermittelt.
Im nächsten Schritt wurde diese Lösung direkt auf das KI-basierte Embedded Vision-System von IDS Imaging Development Systems portiert. Bestehend aus intelligenter Kamera plus umfangreicher Softwareumgebung mit einfach zu bedienenden Werkzeugen ermöglicht das Komplettsystem auch Anwendern ohne KI-Expertise, verschiedene Anwendungsfälle selbst anzupassen. Die Machine Vision Aufgaben werden dabei »on device« bearbeitet, also auf der Kamera selbst. »Apps«, die so einfach wie bei einem Smartphone auf die Kamera geladen und ausgeführt werden können, bestimmen die Aufgaben.
Wann immer sich beispielsweise Rahmenbedingungen in der Produktion ändern – beispielsweise Beleuchtung, Aussehen der Objekte oder neue Objekttypen – soll der Anwender selbst agieren können. Zudem soll das Gesamtsystem durch direkte Kommunikation der Gerätekomponenten funktionieren, so dass ein PC mit allen Integrationsaufgaben und der Schnittstellenanbindung entfallen kann.
Ein trainiertes neuronales Netz identifiziert alle Objekte im Bild und detektiert zudem ihre Position und Orientierung. Durch die KI geht das nicht nur für feste und immer gleich aussehende Objekte, sondern auch, wenn viel natürliche Varianz wie beispielsweise bei Lebensmitteln, Pflanzen oder anderen flexiblen Objekten vorliegt. Daraus resultiert eine sehr stabile Positions- und Lageerkennung der Objekte. Im genannten Beispiel trainierte urobots das Netz für den Kunden mit eigener Software und konnte es durch ein von IDS bereitgestelltes Tool einfach in ein für die »IDS NXT Inferenzkamera« kompatibles Format konvertieren.
Jede Schicht des CNN-Netzwerks wurde dabei zu einem vollständig beschrieben Knotendeskriptor in einer komplett verketteten Liste des CNN in binärer Darstellung. Ein speziell für die Kamera entwickelter CNN-Beschleuniger auf Basis eines FPGA Core kann diese universellen CNN-Formate dann optimiert ausführen. Die von urobots entwickelte Vision App berechnet aus den Detektionsdaten optimale Griffpositionen. Doch damit war die Aufgabe noch nicht gelöst. Neben den Ergebnissen »Was«, »Wo« und »Wie« gegriffen wird, galt es, eine direkte Kommunikation zwischen der Kamera und dem Roboter herzustellen.
Gerade diese Aufgabe darf nicht unterschätzt werden. Denn oftmals entscheidet sich hier, wieviel Zeit, Geld und Manpower in eine Lösung investiert werden muss. Im konkreten Anwendungsfall wurde ein XMLRPC-basiertes Netzwerkprotokoll in der Vision App der Kamera implementiert, um die konkreten Arbeitsanweisungen direkt an den Roboter weiterzureichen. Die finale KI-Vision-Applikation detektiert Objekte in circa 200 ms und erreicht eine Lagegenauigkeit von ± 2°. Das neuronale Netz der Kamera lokalisiert und detektiert die exakte Lage der Objekte. Auf Basis dieser Bildinformationen können sie vom Roboter selbständig gegriffen und abgelegt werden.
Nicht allein die künstliche Intelligenz macht diesen Use Case smart – auch die Tatsache, dass die Lösung vollständig ohne einen zusätzlichen PC funktioniert, ist in zweierlei Hinsicht interessant: Da die Kamera selbst Bildverarbeitungsergebnisse erzeugt und nicht nur Bilder liefert, kann auf die PC-Hardware und die damit verbundene Infrastruktur verzichtet werden. Dies reduziert letztendlich die Anschaffungs- und Instandhaltungskosten der Anlage. Wichtig ist oft aber auch, dass Prozessentscheidungen direkt vor Ort »in time« getroffen werden.
Dadurch können Folgeprozesse schneller und ohne Latenzen ausgeführt werden, was manches Mal eine Erhöhung der Taktrate ermöglicht. Ein weiterer Aspekt betrifft die Entwicklungskosten. KI-Vision beziehungsweise das Trainieren eines neuronalen Netzes funktioniert ganz anders als klassische, regelbasierte Bildverarbeitung, wodurch sich die Herangehensweise und Bearbeitung von Bildverarbeitungsaufgaben ändert. Die Qualität der Ergebnisse ist nicht mehr das Produkt eines manuell entwickelten Programmcodes durch Bildverarbeitungsexperten und Anwendungsentwickler.
Das heißt, wenn sich eine Anwendung KI-basiert lösen lässt, lassen sich mit einer umfangreichen und nutzerfreundlichen Software-Umgebung Kosten und Zeit der entsprechenden Experten einsparen. Jede Anwendergruppe kann ein neuronales Netz trainieren, die dazu passende Vision App entwerfen und auf der Kamera ausführen.