Analyse in Echtzeit

Big Data

Dominik Ulmer | Lukas Dehling, 23.08.2016, 15:50

Analyse in Echtzeit

Sind bei der Datenauswertung schnelle Reaktionszeiten gefordert, kann eine Cloud-Lösung an ihre Grenzen stoßen. Eine Alternative stellt eine Supercomputer-Technologie dar: Im Zusammenspiel mit einer angepassten Analysesoftware verspricht sie Analysen in Echtzeit.

Bilder

Der Hype um Big Data ist groß: Oft wird schon die bloße Anschaffung einer Big-Data-Analytics-Lösung als Allheilmittel im Hinblick auf Business Intelligence und ROI angesehen – dabei sind eine Menge weitere Faktoren zu beachten. Bei allen Diskussionen dürfte eines zumindest sicher sein: Was den Einfluss von Big Data angeht, sehen wir im Moment nur die Spitze des Eisbergs. Big Data ist die Basis der Digitalisierung und erfasst in Zukunft folglich immer mehr Bereiche. Daher müssen sowohl die IT als auch das Business Wege finden, das Potenzial von Big Data zu nutzen, um Daten in Informationen und diese wiederum in Mehrwerte und Wissen umzuwandeln.

Denn was nützt es, riesige Mengen an Daten zu besitzen, wenn sie nicht sinnvoll eingesetzt werden und Unternehmen entsprechende Geschäftsentscheidungen erst viel zu spät treffen können? Deshalb ist der Faktor Zeit entscheidend. In vielen Fällen müssen sich Daten innerhalb kürzester Zeit verarbeiten lassen, damit gewinnbringende Entscheidungen überhaupt möglich sind. Häufig sind sogar Daten-Analysen in Echtzeit nötig.

Grundsätzliche Probleme

Dabei gestalten sich Big-Data-Analysen insgesamt als sehr schwierig. Die Datenmengen sind immens und die Daten an sich äußerst divers, weil sie in allen nur denkbaren Formaten vorliegen. Ob also bei der Größe der Datensätze, beim Umfang oder bei der Komplexität: Big Data Analytics erlebt eine geradezu explosionsartige Entwicklung. Und das stellt Unternehmen, die ohnehin mit ungebremster Cluster-Vermehrung, der Flut an neuen Applikationen und dem immer höheren Zwang zu immer schnelleren Erkenntnissen zu kämpfen haben, vor zusätzliche Probleme. Hinzu kommt, dass die technologischen Entwicklungen in der Big-Data-Welt alles andere als stagnieren. Technologien wie Spark, Hadoop oder Graphdatenbanken sind inzwischen in vielen Industrien allgegenwärtig. Und auch innovative Ansätze wie etwa Deep Learning / Machine Learning sind auf dem Vormarsch.

Vor diesem Hintergrund braucht es Lösungen, die Datenberge schnell verständlich machen, und die in einer skalierbaren Umgebung erfolgreich angewendet werden können. Außerdem ist eine entsprechend große Rechenleistung nötig, die konventionelle Computing-Architekturen in der Regel nicht liefern können.

Das 'Urika GX'-System steht in drei Ausführungen zur Verfügung – in seiner leistungsstärksten Version mit bis zu 1728 Kernen pro System. Hierbei handelt es sich um ein 42HE-/19-Zoll-Standard-Rack mit den Maßen 2000 mm × 600 mm × 1600 mm (H×B×T).

Fusion von Soft- und Hardware

Um diesen Problemen zu begegnen, hat Cray die neue agile Big-Data-Analytics-Plattform ‚Urika-GX‘ entwickelt, die dabei helfen soll, für die größten Big Data-Herausforderungen gewappnet zu sein – trotz stetig steigender Datenmengen, Komplexität und immer mehr Anwendungsbereichen. Dafür wurden die Eigenschaften eines Supercomputers, und zwar enorme Rechengeschwindigkeit sowie Skalierungs- und Durchsatzraten, mit jenen einer standardisierten Enterprise-Hardware und einer OpenSource-Software-Umgebung (OpenStack für das Datenmanagement und Apache Mesos für die dynamische Konfiguration) kombiniert – was für den Nutzer letztlich mehr Anwendungskomfort und Flexibilität bedeutet. Im Gegensatz zu der oft zitierten ‚Schatten-IT‘, bei der verschiedene Cluster-Architekturen jeweils für verschiedene Workloads eingesetzt werden und damit ein Problem für die Integration von Applikationen darstellt, wird hier auf die Verwendung einheitlicher und offener Industriestandards gesetzt. Dies erleichtert die Integration neuer Analytics-Werkzeuge enorm.

Zur einfachen Implementierung im laufenden Betrieb verfügt das 'Urika-GX'-System über vorintegrierte Industrie-Standard-Software.

Die Hardware-Appliance ist auf anspruchsvolle Analyse-Workloads ausgelegt und erlaubt die zeitgleiche Ausführung mehrerer Analyse-Aufgaben – sei es Hadoop, Apache Spark oder Graph – auf einer einzigen Plattform. Weil auch sehr umfangreiche und komplexe Graph-Analysen möglich sind, steht Anwendern damit ein leistungsfähiges Instrument zur Verfügung, um schnell Einblicke in große Mengen unstrukturierter Daten zu gewinnen.

Der Aries-Verbindungs-Chip

Hardwareseitig verfügt das System über Intel-Xeon-Broadwell-Cores, 22 TByte Arbeitsspeicher und 35 TByte lokalen SSD-Speicher sowie den Aries-Verbindungs-Chip.

Wie lässt sich dies nun realisieren? Möglich macht es die Verwendung von Komponenten, die bereits in den ‚Cray XC‘-Supercomputern erfolgreich im Einsatz sind – darunter der sogenannte Aries-Verbindungs-Chip (Aries Interconnect). Dieses interne Hochgeschwindigkeits-Netzwerk ist ein verteiltes Verbindungssystem, das auf niedrige Latenz sowie hohe Bandbreiten ausgelegt und für hohe Messaging-Raten optimiert ist. Netzwerk-abhängige Workloads wie Spark oder Graphen-basierte Analysen laufen dadurch entsprechend schneller, da die Datenpakete ständig eingespeist werden können (in-flight), ohne erst eine Rückmeldung abwarten zu müssen. Darunter versteht man die Fähigkeit des Netzwerks, sehr große Mengen an Datenpakten gleichzeitig auf dem Netz aktiv zu halten. Dies ist eine notwendige Voraussetzung, um die sogenannte ‚einseitige‘ Kommunikation zu ermöglichen, bei der der Sender nicht mehr auf eine Bestätigung des Empfängers wartet, bevor er das nächste Datenpaket verschickt, womit verschiedene Kommunikationsströme überlappt werden können. Dies drückt sich in sehr hohen Raten an kleinen Datenpaketen auf dem Netz aus.

Der Aries-Verbindungs-Chip ersetzt dabei Verbindungen per Ethernet- oder InfiniBand-Knoten, so dass die Notwendigkeit entfällt, ein Netzwerk-Fabric zwischen einzelnen Knoten aufzubauen, das unnötig Zeit, Support und Kapital verschlingt.

Graph-Analysen in Datenbank

Nachdem die große Menge an unstrukturierten Daten ‚in Form‘ gebracht wurde, kommen Graphen-Analysen ins Spiel. Sie sind eine besondere Stärke der neuen Plattform. Graphen sind nach wie vor der am schnellsten wachsende Datenbanktyp. Ein Grund für deren steigende Popularität ist die Erkenntnis, dass sie Beziehungen zwischen Entitäten wesentlich besser abbilden können als relationale Datenbanken. Graph-Datenbanken können eingesetzt werden, um gewisse Muster und Beziehungen zwischen einzelnen Größen zu erkennen – mit relationalen Datenbanken ist dies oft nur sehr schwer oder gar nicht möglich.

Während Graphen-Analysen im Hinblick auf Skalierung und Performance in der Vergangenheit lange Zeit als eine der schwierigsten Aufgabenstellungen für moderne Analytics-Systeme galten, können diese heute dank modernster Technologie bis zu 100-mal schneller durchgeführt werden. Im hier beschriebenen Fall übernimmt die ‚Cray Graph Engine‘ die Berechnungen und ermöglicht die dafür nötige schnelle und komplexe iterative Tiefensuche. Wichtig in diesem Umfeld ist, dass jedes Szenario – vom Einzelprozessor bis hin zu Tausenden von Prozessoren – unterstützt wird, ohne dass es zu Einbußen bei der Leistungsfähigkeit kommt. Ein weiterer wichtiger Faktor ist die Fähigkeit, auch mehrere Terabyte große Datensätze verarbeiten zu können, ohne unnötige Datenverschiebungen zu verursachen.

Mit der ‚Graph-Engine‘ lassen sich neue Muster innerhalb von Daten erkennen, Korrelationen zwischen Datenpunkten anstellen und anschließend entsprechende Hypothesen aufstellen. Und die Analytics-Workflows, auf denen diese Hypothesen basieren, lassen sich parallel fahren, um Ergebnisse in Echtzeit vergleichen und die Arbeitsabläufe abhängig vom Ergebnis flexibel anpassen zu können.

Der Unterschied zu herkömmlichen Cluster-Architekturen ist, dass sich die darauf durchgeführten Berechnungen nicht verlangsamen, sobald die Graphen größer werden. Bei traditionellen Clustern kann das sogar der Fall sein, wenn zusätzliche Rechenknoten hinzufügt werden, die in der Regel ohnehin keine zusätzlichen Performance-Vorteile mit sich bringen.

Autor:
Dominik Ulmer ist Vice President EMEA Business Operations bei Cray.

Anwendungsszenarien der Big-Data-Analyse

Data Scientists, IT-Abteilungen und Forscher haben mittels der Graph-Analysefähigkeiten die Möglichkeit, Graphen mit zig Milliarden von Beziehungen, die außerdem noch aus allen möglichen Datenquellen zusammengesetzt wurden – zunächst aufzubauen und anschließend abzufragen. Das ergibt für viele Branchen neue Anwendungsmöglichkeiten:

Graph-Analysen in der Krebsforschung:
In der Krebsforschung kommen Graph-Analysen im Speziellen und Big Data Analytics insgesamt für die Analyse von Genomdaten und die Genom-Sequenzierung zum Einsatz. Auch hier besteht eine der größten Herausforderungen darin, dass die zu sammelnden medizinischen Daten sehr divers und fragmentiert sind. Gerade deswegen ist eine einheitliche Plattform für die Aufnahme, Analyse, das Auffinden und Abfragen von Daten so essenziell. Das Non-Profit-Forschungsinstitut Broad Institute des Massachusetts Institute of Technology (MIT) und von Harvard in den Vereinigten Staaten, das sich um ein größeres Verständnis von Krankheiten und den Fortschritt bei deren Behandlung bemüht, war mit dem neuen System in der Lage, die Zeit, in der es die Quality-Score-Recalibration-Ergebnisse (QSR) aus seinem Genom-Analyse-Toolkit ‚GATK4‘ und der Apache-Spark-Pipeline erzielt, deutlich zu verkürzen: von 40 auf 9 Minuten.
Predictive Maintenance in der Fertigung:
Auch für die Fertigungsindustrie hält Big Data Analytics enormes Potenzial bereit. Ein Paradebeispiel für den Einsatz von Big-Data-Analytics-Lösungen im Fertigungsbereich ist die vorausschauende Wartung – Predictive Maintenance. Hierzu werden die aus Sensoren und den Steuerungen von Maschinen gewonnenen Daten analysiert, um Wartungsintervalle zu timen und Ausfälle zu vermeiden. Für diesen Anwendungsfall ist es aus zwei Gründen empfehlenswert, auf eine Hardware-Appliance statt auf eine Cloud-Lösung zu setzen. Erstens hat die Cloud eine zu hohe Latenzzeit, um Analyse-Ergebnisse schnell genug erzielen zu können. Zweitens müssen die Daten erst einmal in die Cloud bewegt werden – das bindet Ressourcen und ist gerade im Hinblick auf den Schutz geschäftskritischer Daten häufig nicht zu empfehlen.
Cyber-Attacken abwehren:
Die Gewährleistung eines sicheren Netzwerks für den ununterbrochenen Geschäftsbetrieb ist in der heutigen hypervernetzten Welt so wichtig wie nie zuvor. IT-Abteilungen und Sicherheitsverantwortliche stehen hier aber ebenfalls vor dem Problem, die schiere Masse an maschinengenerierten Daten zu bewältigen. Konventionelle Technologien stoßen an diesem Punkt häufig an ihre Grenzen. Ein weiterer zentraler Einsatzbereich für Big Data Analytics und speziell Graphdatenbanken ist daher die Cybersicherheit. Hier kommt es besonders auf schnelle Reaktionen an, denn sonst stehen unter Umständen Reputation und Fortkommen eines Unternehmens auf dem Spiel. Um Cyber-Angriffe oder Anomalien zu entdecken, müssen Hunderte Millionen von Logdaten analysiert werden. Kommt es dann zur Attacke auf ein Unternehmensnetzwerk, müssen Unternehmen in der Lage sein, sofort – das heißt in Echtzeit – zu reagieren.

Das könnte Sie auch interessieren

Sensor+Test 2026

Vom Sensor zum intelligenten System

Sensorik, Messtechnik und Künstliche Intelligenz verschmelzen zu intelligenten Systemen. Die Sensor+Test zeigt vom 9. bis 11. Juni 2026 in Nürnberg die wichtigsten Trends einer Branche im Wandel.

mehr...

Micro-Epsilon

Vollautomatisierte Defekterkennung

In der Roh-Karosseriefertigung ist eine reproduzierbare und vollständige Oberflächenprüfung unerlässlich, um Kosten durch Nacharbeit im lackierten Zustand einzusparen. Roboterbasierte Inspektionssysteme sind hier eine Alternative zu statischen...

mehr...

Kistler

Solide Umsatzentwicklung im Jahr 2025

Die Kistler-Gruppe erzielte 2025 einen Umsatz von 424 Millionen Schweizer Franken. Mit einem Rückgang von währungsbereinigt 1 Prozent beziehungsweise 5 Prozent in Schweizer Franken, konnte das Unternehmen den Umsatz gegenüber dem Vorjahr stabil...

mehr...

Kistler

DMS-Messverstärker mit Analogausgang und IO-Link

Der DMS-Messverstärker '4709A' von Kistler bietet präzise und rauscharme Signalverarbeitung für den Einsatz von Kraftmesszellen sowie Drehmoment- und Drucksensoren.

mehr...

AMA Verband

Philipp Gutmann übernimmt Geschäftsführung

Seit dem 1. Januar 2025 leitet Philipp Gutmann als neuer Geschäftsführer den AMA Verband für Sensorik und Messtechnik und tritt damit die Nachfolge von Thomas Simmons an, der den AMA Verband über 17 Jahre prägte.

mehr...

Emerson

Luftfeuchtigkeit und -qualität in Echtzeit überwachen

Der Industriesensor ‚Aventics DS1‘ von Emerson überwacht Taupunkt, Temperatur, Luftfeuchtigkeit und Luftqualität und trägt so dazu bei, Kondensat-bedingte Geräteprobleme zu vermeiden.

mehr...

Fluke

Mobile Wärmebildkamera im Taschenformat

Mit der ‚iSee‘ präsentiert Fluke eine mobile, tragbare Wärmebildkamera im Taschenformat, die Unternehmensangaben zufolge eine detaillierte Bildqualität vergleichbar mit professionellen Kameras bietet.

mehr...

Jumo

Biomasseanlagen sicher betreiben

Um die Sicherheit von Biomasseanlagen zu gewährleisten und Brände zu verhindern, ist ein Früherkennungssystem für die Erhitzung von Biobrennstoffen sinnvoll. Ein Beispiel für die Umsetzung eines solchen Systems ist ein großes Fernheizwerk in...

mehr...

Sick und Endress+Hauser

Strategische Partnerschaft startet

Sick und Endress+Hauser setzen ihre strategische Partnerschaft im Bereich Prozessautomatisierung in die Tat um: Die Gasanalyse- und Durchflussmesstechnik von Sick ist nun integraler Bestandteil des Instrumentierungsportfolios von Endress+Hauser.

mehr...