Quo vadis Bildverarbeitung?

Edge AI + Vision Alliance

Inka Krischke | Tiffany Dinges, 20.02.2020, 09:00

Quo vadis Bildverarbeitung?

Innovationen in den Bereichen Künstliche Intelligenz und Embedded Vision sowie bei speziellen Prozessoren und Entwicklungsumgebungen für die Bildverarbeitung eröffnen der Technologie ein breiteres Spektrum. Ein Überblick.

Bilder

Deep Learning für Aufgaben, die vormals nicht realisierbar waren, auch weil herkömmliche Algorithmen nicht exakt genug waren.

Deep Learning als eine KI-Disziplin ist heute der wichtigste Faktor für die Veränderungen beim praktischen Einsatz von Bildverarbeitung. Diese Technologie stellt eine grundlegend andere Art dar, Merkmale aus Bildern, Videos und vielen anderen Datentypen zu extrahieren. Deep Learning ist nicht für jedes Problem die richtige Lösung, ermöglicht uns jedoch, ein breiteres Spektrum an Merkmalen mit höherer Genauigkeit als zuvor zu erkennen. In nur wenigen Jahren haben sich Deep Neural Networks von praktisch unbekannten kommerziellen Produkten zu nahezu universellen neuen Werkzeugen für die Bildverarbeitung entwickelt.
Dadurch lassen sich heute Aufgaben lösen, die vormals nicht realisierbar waren, auch weil herkömmliche Algorithmen nicht exakt genug oder der Aufwand für die Entwicklung dieser Algorithmen wirtschaftlich untragbar waren. Deep-Learning-Algorithmen beziehungsweise neuronale Netzwerk-Architekturen werden in der Regel wiederverwendet und für un-terschiedliche Einsatzfälle mit anderen Trainingsdaten neu angelernt. Viele zuvor unwirtschaftliche Anwendungen rechnen sich dadurch.

Spezialisierte Prozessoren

Einer der Nachteile von Deep-Learning-Algorithmen besteht darin, dass sie extrem rechenintensiv sind. Ihre Nutzung erfordert in der Regel Prozessoren, die eine enorme Rechenleistung liefern können und in Bezug auf die Kosten und den Leistungsverbrauch kompatibel zu Embedded-Systemen sind. Glücklicherweise stehen immer mehr dieser Prozessoren zur Verfügung. Gerade bei speziellen Prozessoren mit integrierten Deep-Learning-Möglichkeiten gab es in der jüngsten Vergangenheit einen starken Innovationsschub. Ein wesentlicher Grund für diese Entwicklung besteht darin, dass es in der Welt von Deep Learning viel weniger Algorithmen gibt als in der klassischen Bildverarbeitung. Wenn sich Algorithmen wie bei Deep Learning von Anwendung zu Anwendung ähnlich sind, ist es viel einfacher, einen einzelnen Prozessor zu entwickeln, der eine Reihe von Anwendungen bedienen kann. Infolgedessen finden derzeit enorme Investitionen in die Entwicklung von Prozessoren statt, die auf Deep Neural Networks spezialisiert sind.

In den Jahren 2013 bis 2016 war ein stetiger Investitionsrückgang in Halbleiter-Start-ups zu verzeichnen. Einige Experten folgerten daraus, dass Chip-Start-ups nie wieder finanziert werden würden, weil es zu teuer, zu riskant und zu schwierig erschien, die erforderlichen Massenanwendungen zu finden, um die Investitionen profitabel zu machen. Man sprach sogar vom Ende des ‚Silicon‘ im Silicon Valley. 2017 kehrte sich dieser Trend jedoch um und die Finanzierung von Halbleiter-Start-ups wuchs erneut rasant. Wenn sich der aktuelle Trend fortsetzt, werden die Venture-Capital-Investitionen in Halbleiter-Start-ups in diesem Jahr rund 3 Mrd. USD erreichen, was einer Steigerung etwa um den Faktor 10 gegenüber 2016 entspricht. Der größte Teil dieser Investitionen wird in die Herstellung von KI-Chips fließen. Dieser Boom ist hauptsächlich auf die Einführung von Deep Learning zurückzuführen. Die Investitionen in diese Technologie beschränken sich nicht nur auf Chips, sondern auch auf andere Ebenen wie zum Beispiel Algorithmen und Softwaretools.

Derzeit entwickeln geschätzt rund 75 Unternehmen weltweit Prozessoren für Deep Learning, angefangen von Start-ups über große Chip-Hersteller bis zu Anbietern von Silizium-IP wie MediaTek oder Synopsys. Während die Mehrheit der aktuellen Bildverarbeitungssysteme noch eine herkömmliche CPU verwendet, setzen rund 40 % der Befragten einer Umfrage unter Bildverarbeitungsentwicklern (Computer Vision Developer Survey from the Edge AI and Vision Alliance – früher Embedded Vision Allicance – Januar 2020) dedizierte Bildverarbeitungs- oder Deep-Learning-Prozessoren in ihren Systemen ein. Derartige Prozessoren waren vor fünf Jahren noch gar nicht verfügbar. Das Umfrage-Ergebnis belegt die aktuellen rapiden Veränderungen, die in ähnlicher Weise bei der Einführung von Deep Neural Networks zu beobachten waren.

Entwicklungsumgebungen vereinfacht

Die Investitionen in Halbleiter gingen von 2013 bis 2016 stetig zurück, doch dieser Trend hat sich dank erheblicher Investitionen in Halbleiter mit KI zum großen Teil umgekehrt (Quelle: Woodside Capital Partners, 2019).

Neben den enormen Investitionen in Prozessoren erfolgen derzeit große Investitionen und wichtige Innovationen in Entwicklungstools und andere Infrastruktur für die Anwendungsentwicklung. Ein Beispiel dafür ist die Entwicklungsumgebung ‚OpenVINO‘ von Intel. Eines ihrer interessantesten Merkmale ist, dass die Tool-Suite auf eine Vielfalt von Prozessortypen abzielt. Hintergrund dafür ist, dass die Firma Intel in ihren verschiedenen Produktlinien sehr unterschiedliche Prozessoren anbietet. Im Gegensatz dazu werden die Entwicklungstools von Siliziumherstellern häufig nur auf einen einzelnen Prozessortyp abgestimmt. Wer also beispielsweise die Basis seines Bildverarbeitungssystems von einer GPU in ein FPGA ändern möchte, muss dafür bisher mit einer anderen Tool-Suite von Neuem beginnen.

Ein weiterer interessanter Aspekt von ‚OpenVINO‘ ist, dass die Entwicklungsumgebung speziell für Bildverarbeitungs- und Deep-Learning-Anwendungen ausgelegt ist. Durch die Konzentration auf diese Aufgaben kann Intel die Tools effizienter gestalten. Wenn ein Compiler beispielsweise nur einen bestimmten, genau definierten Bereich von Algorithmen behandeln muss, kann er tiefere und spezialisiertere Optimierungen vornehmen als ein Werkzeug, das Code jeglicher Funktionalität abarbeiten können muss.

Cloud Computing hat derzeit ebenso einen zunehmenden Einfluss auf die Vereinfachung der Algorithmus- und Anwendungsentwicklung. Für das Trainieren von Deep Neural Networks sind ein hoher Rechenaufwand und viele Daten erforderlich. Ein einzelner Trainingslauf für ein derartiges komplexes Netzwerk kann selbst auf einer leistungsstarken, GPU-fähigen Workstation eine Woche in Anspruch nehmen. Wenn die Ergebnisse danach nicht zufriedenstellend sind und weitere Iterationsschritte erfordern, braucht der gesamte Prozess sehr viel Zeit. Mittels Cloud Computing und leistungsstarken GPU-Rechenknoten lässt sich der Trainingsaufwand hingegen parallelisieren und erheblich beschleunigen.

Wenn die Priorität darauf liegt, ein Produkt so schnell wie möglich auf den Markt zu bringen, ist es möglicherweise sinnvoll, einfache Standardkameras zu verwenden und Videos in die Cloud zu streamen. Algorithmen können dort rasch und einfach iteriert und aktualisiert werden, ohne dass man sich mit Problemen wie dem Übertragen von Firmware-Updates auf Geräte im Feld befassen muss. Diese Vorgehensweise wird nicht für jede Anwendung die richtige Lösung sein, aber in bestimmten Situationen kann es sinnvoll sein, ein Produkt schnell fertigzustellen und iterieren zu können, um dann Verbesserungen daran vorzunehmen. Für Anwendungen, bei denen Entwickler ihre Deep Neural Networks in der Cloud betreiben (laut Umfrage sind das fast 40 %), steht in der öffentlichen Cloud ein wachsendes Spektrum von APIs und Coprozessor-Hardware zur Verfügung. APIs vereinfachen die Entwicklung dieser Anwendungen und steigern die Leistung und Effizienz solcher Algorithmen. Die KI-Plattform von Xilinx ist hier ein hervorragendes Beispiel für Cloud-Hardware, die in diesem Fall die-selbe grundlegende Architektur in der Cloud verwendet wie Edge Computer.

Zunahme von 3D-Anwendungen

Autor: Jeff Bier ist Gründer der Edge AI + Vision Alliance (ehemals Embedded Vision Alliance) in Walnut Creek, USA.

In vielen Bildverarbeitungsanwendungen sind dreidimensionale Informationen sehr wertvoll oder sogar unerlässlich. So implementieren beispielsweise selbstfahrende Autos oder Staubsauger-Roboter in der Regel VSLAM-Algorithmen (Visual Simultaneous Localization and Mapping), um eine 3D-Karte zu erstellen und ihre eigene Position und Ausrichtung im Raum korrekt einzuordnen. In anderen Fällen ermöglichen 3D-Daten Systeme mit besserer Leistung als 2D-basierende Systeme, wie zum Beispiel die Erkennung von Gesichtern zeigt. Apple hat in den iPhones der neuesten Generation genau aus diesem Grund eine 3D-Erkennung implementiert: Sie ermöglicht eine zuverlässigere Gesichts-erkennung. In bestimmten Fällen können 3D-Daten aus 2D-Sensoren erstellt werden. Meist ist es jedoch am besten, die Daten der dritten Dimension mit Hilfe eines Tiefensensors zu erfassen, und diese dann mit regulären 2D-Informationen zu kombinieren, um ein genaues 3D-Bild der Umgebung oder des zu prüfenden Gegenstands zu erhalten. Die Zahl der Entwickler, die nächstes Jahr Methoden zur 3D-Bildverarbeitung einsetzen möchte oder dies bereits tut, ist um knapp 20 % auf 60 % gestiegen.

Ein großer Hemmschuh für den Einsatz von 3D-Systemen war in der Vergangenheit, dass die erforderlichen Kameras für viele Anwendungen zu teuer und zu groß waren oder zu viel Leistung benötigten. Vergleichbar zu den Prozessor-Fortschritten der letzten zehn Jahre haben sich seit dem Debüt der Microsoft Kinect jedoch auch 3D-Sensoren enorm weiterentwickelt. Die Mobiltelefonie wirkt hier als Marktbeschleuniger: Viele Prozessoren werden häufig zunächst für diesen sehr großvolumigen Markt entwickelt, bevor dieselben Chips oder Derivate davon anschließend in anderen Anwendungen genutzt werden. Auch die Kosten für Bildsensoren und 3D-Kameramodule sind aufgrund der großen Stückzahlen rückläufig. Ein Beispiel für einen solchen Sensor ist der Infineon IRS2381C, der bei hohen Stückzahlen die Implementierung von 3D-Funktionalitäten für einen Preis zwischen 20 und 30 US-Dollar pro System ermöglicht. Diese Größenordnung ist selbst bei kostensensiblen Produkten mit Verkaufspreisen von wenigen Hundert Dollar realisierbar.

Die Edge AI + Vision Alliance

Die Edge AI + Vision Alliance (ehemals Embedded Vision Alliance) ist eine weltweite Vereinigung von fast 100 Unternehmen, die sich dem Ziel verschrieben hat, die Akzeptanz von Edge-AI- und Vision-Technologie zu beschleunigen. Die Vereinigung inspiriert und befähigt Produktentwickler zu diesem Zweck dazu, Künstliche Intelligenz und Bildverarbeitung in ihren Produkten zu integrieren. Zudem fördert sie den Aufbau eines aktiven KI- und Vision-Ökosystems, das Lieferanten, Entwickler von Endprodukten und Partner zusammenbringt. Die Edge AI and Vision Alliance veranstaltet jährlich den Embedded Vision Summit für Innovatoren, die Produkte mit Bildverarbeitungs- und KI-Technologie ausstatten. Die Konferenz findet 2020 vom 18. bis 21. Mai in Santa Clara, Kalifornien statt.

zurück zur Themenseite

Das könnte Sie auch interessieren

PIA

Aus dem Takt?

Engpässe in komplex verketteten Montageanlagen ermitteln und dank Datentransparenz die Produktionseffizienz schnell optimieren! – Dass dies nicht Wunsch bleiben muss, zeigt die Applikation einer Montageanlage für Hinterachsgetriebe.

mehr...

Teledyne e2v

Zur 3D-Erkennung und -Entfernungsmessung

Teledyne e2v hat den CMOS-Time-of-Flight-Sensor Bora angekündigt, der für die 3D-Erkennung und -Entfernungsmessung entwickelt wurde, um die Industrieanwendungen einschließlich bildverarbeitungsgesteuerter Robotik, Logistik und Überwachung zu...

mehr...

Allied Vision

Geeignet für Überwachungs- und Security-Anwendungen

Mit der Alvium 1800 U-501 NIR erweitert die Firma Allied Vision ihr Angebot an USB-Kameras auf Basis der ‚Alvium‘-Technologie.

mehr...

Imago

Ende der Dauerbeobachtung

Event-Based Vision ist ein komplett neuer und kostengünstiger Ansatz für die Überwachung schnell ablaufender Vorgänge, der sich grundlegend von herkömmlichen Bildverarbeitungskonzepten unterscheidet.

mehr...

Technik & Finanzen

KI folgt eigenen Regeln

Google hat Ende vergangenen Jahres mit seinem Test zur Quantenüberlegenheit das i-Tüpfelchen auf die voranschreitende Entwicklung der künstlichen Intelligenz gesetzt. Amerika und China liefern sich ein KI-Wettrennen. Welche Rolle spielt dabei...

mehr...

Fraunhofer-Allianz Vision

Neuestes Mitglied kommt aus der Akustik

Das Fraunhofer IDMT erweitert die Allianz Vision um ein gänzlich neues Kompetenzfeld.

mehr...

Isra Vision

Wachstum trotz herausfordernden Marktbedingungen

Isra Vision, Anbieter für industrielle Bildverarbeitung (Machine Vision), Oberflächeninspektion sowie 3D Machine-Vision-Anwendungen, hat seine Zahlen für das Geschäftsjahr 2018/2019 veröffentlicht und meldet ein Umsatzwachstum im niedrigen...

mehr...

VDMA OPC Machine Vision

Bildverarbeitung – interoperabel und herstellerunabhängig

Mitglieder der 'VDMA OPC Machine Vision Initiative' haben zusammen mit der OPC UA Foundation einen Hardware-Demonstrator entwickelt, der die praktische Umsetzung der ‚OPC UA for Machine Vision (OPC MV) Part 1 Companion Specification‘ beinhaltet.

mehr...

Bildverarbeitung

Autonom dank Künstlicher Intelligenz

Maschinelle Bildverarbeitung zur zuverlässigen Qualitätssicherung per Plug & Play und ohne eine gehörige Portion Fachwissen – von dieser Idealvorstellung sind gängige Bildverarbeitungssysteme in der Regel weit entfernt. Ein deutsch-israelisches...

mehr...

Quo vadis Bildverarbeitung?

Spezialisierte Prozessoren

Status Quo zum Einsatz von Bildverarbeitungsaufgaben in Bildern

Kooperation für Embedded-Kamera und -Sensor API-Standard

Schnittstellen für mehr Reports

Entwicklungsumgebungen vereinfacht

Zunahme von 3D-Anwendungen

Die Edge AI + Vision Alliance

Das könnte Sie auch interessieren

Aus dem Takt?

Zur 3D-Erkennung und -Entfernungsmessung

Geeignet für Überwachungs- und Security-Anwendungen

Ende der Dauerbeobachtung

KI folgt eigenen Regeln

Neuestes Mitglied kommt aus der Akustik

Wachstum trotz herausfordernden Marktbedingungen

Bildverarbeitung – interoperabel und herstellerunabhängig

Autonom dank Künstlicher Intelligenz

Rubriken

Schwerpunkte

Service

Magazin

Unser Netzwerk