Hadoop
Big-Data-Handling neu gedacht
Die Trennung von Datenhaltung und Datenverarbeitung aufbrechen: Das ist das Ziel der Open-Source-Plattform Hadoop. John Kreisa, Vice President für International Marketing bei Hortonworks, über eine Architektur, die mit dem Datenaufkommen mitwächst.
Herr Kreisa, Hadoop soll im Bereich Big Data eine wichtige Rolle einnehmen. Was steckt dahinter?
Kreisa: Hadoop ist ein Projekt innerhalb der Apache-Software-Foundation und soll eine grundlegende Technologie für Big Data bieten. Dahinter steckt ein freier, in Java geschriebener Framework für skalierbare, verteilt arbeitende Software. Dieser soll es ermöglichen, intensive Rechenprozesse mit großen Datenmengen auf Computerclustern durchzuführen. Für uns bei Hortonworks ist das die Basis all unserer Entwicklungen. Technisch betrachtet erfordert Hadoop neues Denken im Bereich Computing, Daten und Analyse.
Wie unterscheidet sich Hadoop zu bisherigen Methoden?
Kreisa: Bisher hat man die Daten und deren Verarbeitung in unterschiedlichen Bereichen des Netzwerks vorgenommen. Die Daten wurden also zur Verarbeitung stets über das Netzwerk geschoben. Die Ergebnisse des Processing dann aber wieder zurück an den Speicherort geschrieben. So ist eine wirklich schnelle Analyse mit entsprechendem Kenntnisgewinn kaum möglich. Die Trennung von Datenhaltung und Datenverarbeitung erweist sich immer stärker als Einschränkung der Performance. Hadoop adressiert genau dieses Problem und legt Datenspeicher und -verarbeitung in so genannten Knoten zusammen. Dabei werden große Rechenaufgaben auf mehrere kleine Jobs aufgeteilt und über die Knoten verteilt – und zwar jeweils dorthin, wo auch die Daten abgelegt sind.
Der zweite Punkt ist die Fokussierung auf die Daten. Herkömmliche Architekturen speichern und verarbeiten typischerweise in Reihen und Spalten einer relationalen Datenbank. Einige Datenbanken sind darüber hinaus in der Lage, Daten entsprechend bereitzustellen, andere Datenbanken können dies aber nicht. Entsprechend hat man bisher einige Arbeitsschritte der Verarbeitung hinzufügen müssen, um ein verarbeitbares Format zu erzeugen, der so genannte ETL-Prozess. Hierbei werden die Daten zunächst aus dem vorhandenen Datenbestand extrahiert, dann für die Verarbeitung – teilweise mehrfach – transformiert und schließlich in die relationale Datenbank geladen. In vielen großen Systemen liegt der Aufwand für den ETL-Prozess daher bei 70 % der gesamten Systemkosten. Noch bevor also der eigentliche Verarbeitungs- und Auswertungsprozess beginnen kann, sind schon Dreiviertel des dafür zur Verfügung stehenden Budgets aufgebraucht. Und trotz der immensen Kosten bedeutet jede Transformation natürlich auch Verlust von Information.
John Kreisa: „Mit Hadoop kommt die Verarbeitung zu den Daten, statt die Daten zur Verarbeitung.“
© HortonworksAnstatt die Daten für die Verarbeitung zu transformieren, konzentriert sich Hadoop darauf, Daten in ihrer ursprünglichsten Form zu speichern und diese für die Verarbeitung zu optimieren. Sie stellen einfach das digitale Pendant physischer Objekte und Beziehungen dar. Auf diese Weise können in Hadoop unglaublich viele Arten von Objekten hinterlegt werden und damit wertvolle Informationen für künftige Auswertungen liefern.
Auch die Größe der Datensammlung ist ein wichtiger Punkt. Denn ein einzelner Technologie-Anbieter ist kaum mehr in der Lage, die Probleme und Chancen dieser Datenmengen zu analysieren. Das Hadoop-Öko-System ist als offene Community auf Open Source aufgebaut. Dadurch beteiligen sich viele da-ran, Herausforderungen, denen sich sonst ein Anbieter allein stellen müsste, gemeinsam zu meistern. Speziell für die Hadoop-Architektur gilt dabei, dass die Lösung sozusagen mit dem Wachstum der Datenmenge und damit der Herausforderung mitwächst. So steigt also auch die Zahl der Knoten in einem so genannten horizontalen Scale-Out-Verfahren. Bei diesen Knoten kann es sich um einfache Standard-Hardware handeln. Sie müssen keineswegs fester Bestandteil einer integrierten Lösung eines einzigen Herstellers sein.
Hortonworks engagiert sich dabei sehr intensiv und führt eine Community im Bereich Hadoop, packt Hadoop in Bundles, die von uns vertrieben und auch supported werden. Darüber hinaus ge-hören die Infrastruktur, passende Open-Source-basierte Werkzeuge für Datenaufnahme und Datenverarbeitung dazu. Auf diese Weise ergänzen Sicherheit, Handhabbarkeit und Governance die heutigen Erwartungen der Unternehmen.
Wie kann diese Technologie im Fertigungssektor helfen?
Kreisa: Fortschrittliche Produktionsprozesse haben sich zu einem unglaublich komplexen Gemenge von Interaktionen sowohl innerhalb eines einzigen Herstellers als auch über die gesamte Lieferkette entwickelt. Diese Interaktionen hängen zunehmend von rechtzeitigen Informationen ab, um die Produktionsqualität und die Effizienz der Supply Chain zu gewährleisten. Immer mehr Produktionswerkzeuge und -einrichtungen werden miteinander verbunden und erzeugen eine Vielzahl von Datentypen, darunter Bilder, Audio-, Infrarot- und dreidimensionale Lidar-Arrays, die nicht gut in eine relationale Datenbank oder traditionelle analytische Systeme passen. Gleichzeitig werden die Daten aus diesen Quellen oft mit anderen Datentypen verschmolzen. Alles, was sich in einem einzigen Datenpool befindet, vereinfacht diesen Prozess deutlich. Cyber-Physical-Modelle versuchen, diese Komplexität zu erfassen, haben aber oft mit Einschränkungen durch die zugrundeliegende technische Basis zu kämpfen. So gibt es massiv mehr Daten und Datentypen, die immer komplexere Beziehungen darstellen und in kürzerer Zeit analysiert werden müssen. Da Hadoop-basierte Big-Data-Lösungen genau für diese Situation ausgelegt sind, werden sie zunehmend in Produktion und Fertigung eingesetzt.
Können sie ein konkretes Beispiele für den Einsatz in der Produktion nennen?
Kreisa: Ein gutes Beispiel ist etwa Predictive Maintenance und industrielle Kontrollsysteme. Bislang sammeln und verarbeiten analytische Systeme indus-trielle Steuerdaten in periodischen Aggregationen. Allerdings wird ein Produktionsprozess effizienter, wenn mit einem Datenstrom anstelle einer Folge von periodischen Zuständen gearbeitet wird. Statt Wartezeiten für die Analyse der Produktionsdaten in Kauf nehmen zu müssen, ermöglicht die Echtzeit-Analyse der Steuerdaten mit den Hadoop-Plattformen ‚Apache Storm‘ und ‚Apache Kafka‘ eine schnelle Erkennung und Lösung von Maschinentoleranz-Problemen, spart Ressourcen, vermeidet Produktionsausfall und reduziert die Wartungskosten durch Predictive-Failure-Analysis.
Oder nehmen Sie Supply-Chain-Risikomanagement, Lagerung für Just-in-Time-Fertigung, Logistik und Routing-Optimierung. Versorgung, Lagerung und Logistik sind sicherlich keine neuen Themen für die Produzenten, aber die Komplexität des End-to-End-Systems hat sich deutlich erhöht. Engpässe bei der Verfügbarkeit eines einzelnen, kleinen Bauteils können zu großen Domino-Effekten führen, die sich in der Versorgungskette fortpflanzen. Der Peitscheneffekt wird an den Übergängen von Just-in-Time-Lagerung, globaler Beschaffung und erhöhter Komponentenkomplexität immer deutlicher. Der tiefe Einblick in die Produktionsdaten durch Hadoop-basierte Systeme ermöglicht ein Verständnis dieser komplexen Effekte, das beim Planungs- und Risikomanagement hilft. Darüber hinaus schafft ein erhöhter Bestand an Verfügbarkeitsdaten in der gesamten Lieferkette einen weiteren wichtigen Datenfluss, der analysiert werden muss, um den Planungsprozess in Echtzeit umzusetzen.
Gibt es im deutschen Fertigungsmarkt, verglichen zu anderen geografischen Regionen, besondere Herausforderungen?
Kreisa: Big-Data-Lösungen zeichnen sich dadurch aus, dass sie Einsichten bieten, die man nicht aus separaten, in Silos befindlichen Datensätzen beziehen kann. Datenschutz und andere Regulierungen in der EU und insbesondere in Deutschland haben traditionell einiges Zögern bei der Erstellung großer, zentraler Daten-Repositories verursacht.
Hortonworks und andere in der Open-Source-Community agierende Anbieter haben darauf reagiert. Sie bieten in ihren Lösungen Sicherheit der Enterprise-Klasse, Daten-Provenienz und Governance in ihren Big Data-Lösungen. Angesichts der Wirkungsweise von Big Data ist das von Bedeutung. Wenn Richtlinien und Prozesse zu restriktiv sind, erhält man im Ergebnis dieselbe Silo-Architektur, die die Innovation anfangs verhinderte. Wenn die Restriktionen zu locker gehandhabt werden, besteht für das Unternehmen ein Compliance-Risiko. So wurden neue Systeme und Konzepte notwendig, um eine granulare Zugriffskontrolle im Dataset zu gewährleisten. Gleichzeitig musste das Dataset einfach administrierbar und sowohl in der Größe als auch der Komplexität der Daten skalierbar sein.
Die im deutschen Produktionssektor bestehenden Herausforderungen resultieren aus einigen der größten Stärken dieses Bereichs. Der Fokus auf Qualität und Präzision, mit dem er seine Spitzenposition erobert hat, führt für Hersteller manchmal zu einer Risiko-Aversion. Big Data Analytics erfordern jedoch einen explorativen Ansatz. Daraus entsteht für die deutschen Hersteller die Herausforderung, sich sowohl ihre Präzisionskultur weiterhin aufrechtzuerhalten als auch mit dem Konzept der ständigen Versuche und schnellen Umsetzungen anzufreunden.











