Big Data
Analyse in Echtzeit
Sind bei der Datenauswertung schnelle Reaktionszeiten gefordert, kann eine Cloud-Lösung an ihre Grenzen stoßen. Eine Alternative stellt eine Supercomputer-Technologie dar: Im Zusammenspiel mit einer angepassten Analysesoftware verspricht sie Analysen in Echtzeit.
Der Hype um Big Data ist groß: Oft wird schon die bloße Anschaffung einer Big-Data-Analytics-Lösung als Allheilmittel im Hinblick auf Business Intelligence und ROI angesehen – dabei sind eine Menge weitere Faktoren zu beachten. Bei allen Diskussionen dürfte eines zumindest sicher sein: Was den Einfluss von Big Data angeht, sehen wir im Moment nur die Spitze des Eisbergs. Big Data ist die Basis der Digitalisierung und erfasst in Zukunft folglich immer mehr Bereiche. Daher müssen sowohl die IT als auch das Business Wege finden, das Potenzial von Big Data zu nutzen, um Daten in Informationen und diese wiederum in Mehrwerte und Wissen umzuwandeln.
Denn was nützt es, riesige Mengen an Daten zu besitzen, wenn sie nicht sinnvoll eingesetzt werden und Unternehmen entsprechende Geschäftsentscheidungen erst viel zu spät treffen können? Deshalb ist der Faktor Zeit entscheidend. In vielen Fällen müssen sich Daten innerhalb kürzester Zeit verarbeiten lassen, damit gewinnbringende Entscheidungen überhaupt möglich sind. Häufig sind sogar Daten-Analysen in Echtzeit nötig.
Grundsätzliche Probleme
Dabei gestalten sich Big-Data-Analysen insgesamt als sehr schwierig. Die Datenmengen sind immens und die Daten an sich äußerst divers, weil sie in allen nur denkbaren Formaten vorliegen. Ob also bei der Größe der Datensätze, beim Umfang oder bei der Komplexität: Big Data Analytics erlebt eine geradezu explosionsartige Entwicklung. Und das stellt Unternehmen, die ohnehin mit ungebremster Cluster-Vermehrung, der Flut an neuen Applikationen und dem immer höheren Zwang zu immer schnelleren Erkenntnissen zu kämpfen haben, vor zusätzliche Probleme. Hinzu kommt, dass die technologischen Entwicklungen in der Big-Data-Welt alles andere als stagnieren. Technologien wie Spark, Hadoop oder Graphdatenbanken sind inzwischen in vielen Industrien allgegenwärtig. Und auch innovative Ansätze wie etwa Deep Learning / Machine Learning sind auf dem Vormarsch.
Vor diesem Hintergrund braucht es Lösungen, die Datenberge schnell verständlich machen, und die in einer skalierbaren Umgebung erfolgreich angewendet werden können. Außerdem ist eine entsprechend große Rechenleistung nötig, die konventionelle Computing-Architekturen in der Regel nicht liefern können.

Sonderschauen für Industrie 4.0
Vom 4. bis 6. Oktober öffnet die Fachmesse IT & Business in Stuttgart ihre Pforten. Hoch im Kurs steht dabei das Thema Industrie 4.0 – mit der erweiterten Sonderschau 'Smart-Factory' und einem neuen Showcase.
Fusion von Soft- und Hardware
Um diesen Problemen zu begegnen, hat Cray die neue agile Big-Data-Analytics-Plattform ‚Urika-GX‘ entwickelt, die dabei helfen soll, für die größten Big Data-Herausforderungen gewappnet zu sein – trotz stetig steigender Datenmengen, Komplexität und immer mehr Anwendungsbereichen. Dafür wurden die Eigenschaften eines Supercomputers, und zwar enorme Rechengeschwindigkeit sowie Skalierungs- und Durchsatzraten, mit jenen einer standardisierten Enterprise-Hardware und einer OpenSource-Software-Umgebung (OpenStack für das Datenmanagement und Apache Mesos für die dynamische Konfiguration) kombiniert – was für den Nutzer letztlich mehr Anwendungskomfort und Flexibilität bedeutet. Im Gegensatz zu der oft zitierten ‚Schatten-IT‘, bei der verschiedene Cluster-Architekturen jeweils für verschiedene Workloads eingesetzt werden und damit ein Problem für die Integration von Applikationen darstellt, wird hier auf die Verwendung einheitlicher und offener Industriestandards gesetzt. Dies erleichtert die Integration neuer Analytics-Werkzeuge enorm.
Zur einfachen Implementierung im laufenden Betrieb verfügt das 'Urika-GX'-System über vorintegrierte Industrie-Standard-Software.
© CrayDie Hardware-Appliance ist auf anspruchsvolle Analyse-Workloads ausgelegt und erlaubt die zeitgleiche Ausführung mehrerer Analyse-Aufgaben – sei es Hadoop, Apache Spark oder Graph – auf einer einzigen Plattform. Weil auch sehr umfangreiche und komplexe Graph-Analysen möglich sind, steht Anwendern damit ein leistungsfähiges Instrument zur Verfügung, um schnell Einblicke in große Mengen unstrukturierter Daten zu gewinnen.
Der Aries-Verbindungs-Chip
Hardwareseitig verfügt das System über Intel-Xeon-Broadwell-Cores, 22 TByte Arbeitsspeicher und 35 TByte lokalen SSD-Speicher sowie den Aries-Verbindungs-Chip.
© CrayWie lässt sich dies nun realisieren? Möglich macht es die Verwendung von Komponenten, die bereits in den ‚Cray XC‘-Supercomputern erfolgreich im Einsatz sind – darunter der sogenannte Aries-Verbindungs-Chip (Aries Interconnect). Dieses interne Hochgeschwindigkeits-Netzwerk ist ein verteiltes Verbindungssystem, das auf niedrige Latenz sowie hohe Bandbreiten ausgelegt und für hohe Messaging-Raten optimiert ist. Netzwerk-abhängige Workloads wie Spark oder Graphen-basierte Analysen laufen dadurch entsprechend schneller, da die Datenpakete ständig eingespeist werden können (in-flight), ohne erst eine Rückmeldung abwarten zu müssen. Darunter versteht man die Fähigkeit des Netzwerks, sehr große Mengen an Datenpakten gleichzeitig auf dem Netz aktiv zu halten. Dies ist eine notwendige Voraussetzung, um die sogenannte ‚einseitige‘ Kommunikation zu ermöglichen, bei der der Sender nicht mehr auf eine Bestätigung des Empfängers wartet, bevor er das nächste Datenpaket verschickt, womit verschiedene Kommunikationsströme überlappt werden können. Dies drückt sich in sehr hohen Raten an kleinen Datenpaketen auf dem Netz aus.
Der Aries-Verbindungs-Chip ersetzt dabei Verbindungen per Ethernet- oder InfiniBand-Knoten, so dass die Notwendigkeit entfällt, ein Netzwerk-Fabric zwischen einzelnen Knoten aufzubauen, das unnötig Zeit, Support und Kapital verschlingt.
Graph-Analysen in Datenbank
Nachdem die große Menge an unstrukturierten Daten ‚in Form‘ gebracht wurde, kommen Graphen-Analysen ins Spiel. Sie sind eine besondere Stärke der neuen Plattform. Graphen sind nach wie vor der am schnellsten wachsende Datenbanktyp. Ein Grund für deren steigende Popularität ist die Erkenntnis, dass sie Beziehungen zwischen Entitäten wesentlich besser abbilden können als relationale Datenbanken. Graph-Datenbanken können eingesetzt werden, um gewisse Muster und Beziehungen zwischen einzelnen Größen zu erkennen – mit relationalen Datenbanken ist dies oft nur sehr schwer oder gar nicht möglich.
Während Graphen-Analysen im Hinblick auf Skalierung und Performance in der Vergangenheit lange Zeit als eine der schwierigsten Aufgabenstellungen für moderne Analytics-Systeme galten, können diese heute dank modernster Technologie bis zu 100-mal schneller durchgeführt werden. Im hier beschriebenen Fall übernimmt die ‚Cray Graph Engine‘ die Berechnungen und ermöglicht die dafür nötige schnelle und komplexe iterative Tiefensuche. Wichtig in diesem Umfeld ist, dass jedes Szenario – vom Einzelprozessor bis hin zu Tausenden von Prozessoren – unterstützt wird, ohne dass es zu Einbußen bei der Leistungsfähigkeit kommt. Ein weiterer wichtiger Faktor ist die Fähigkeit, auch mehrere Terabyte große Datensätze verarbeiten zu können, ohne unnötige Datenverschiebungen zu verursachen.
Mit der ‚Graph-Engine‘ lassen sich neue Muster innerhalb von Daten erkennen, Korrelationen zwischen Datenpunkten anstellen und anschließend entsprechende Hypothesen aufstellen. Und die Analytics-Workflows, auf denen diese Hypothesen basieren, lassen sich parallel fahren, um Ergebnisse in Echtzeit vergleichen und die Arbeitsabläufe abhängig vom Ergebnis flexibel anpassen zu können.
Der Unterschied zu herkömmlichen Cluster-Architekturen ist, dass sich die darauf durchgeführten Berechnungen nicht verlangsamen, sobald die Graphen größer werden. Bei traditionellen Clustern kann das sogar der Fall sein, wenn zusätzliche Rechenknoten hinzufügt werden, die in der Regel ohnehin keine zusätzlichen Performance-Vorteile mit sich bringen.
Autor:
Dominik Ulmer ist Vice President EMEA Business Operations bei Cray.
Anwendungsszenarien der Big-Data-Analyse
Data Scientists, IT-Abteilungen und Forscher haben mittels der Graph-Analysefähigkeiten die Möglichkeit, Graphen mit zig Milliarden von Beziehungen, die außerdem noch aus allen möglichen Datenquellen zusammengesetzt wurden – zunächst aufzubauen und anschließend abzufragen. Das ergibt für viele Branchen neue Anwendungsmöglichkeiten:
- Graph-Analysen in der Krebsforschung:
In der Krebsforschung kommen Graph-Analysen im Speziellen und Big Data Analytics insgesamt für die Analyse von Genomdaten und die Genom-Sequenzierung zum Einsatz. Auch hier besteht eine der größten Herausforderungen darin, dass die zu sammelnden medizinischen Daten sehr divers und fragmentiert sind. Gerade deswegen ist eine einheitliche Plattform für die Aufnahme, Analyse, das Auffinden und Abfragen von Daten so essenziell. Das Non-Profit-Forschungsinstitut Broad Institute des Massachusetts Institute of Technology (MIT) und von Harvard in den Vereinigten Staaten, das sich um ein größeres Verständnis von Krankheiten und den Fortschritt bei deren Behandlung bemüht, war mit dem neuen System in der Lage, die Zeit, in der es die Quality-Score-Recalibration-Ergebnisse (QSR) aus seinem Genom-Analyse-Toolkit ‚GATK4‘ und der Apache-Spark-Pipeline erzielt, deutlich zu verkürzen: von 40 auf 9 Minuten. - Predictive Maintenance in der Fertigung:
Auch für die Fertigungsindustrie hält Big Data Analytics enormes Potenzial bereit. Ein Paradebeispiel für den Einsatz von Big-Data-Analytics-Lösungen im Fertigungsbereich ist die vorausschauende Wartung – Predictive Maintenance. Hierzu werden die aus Sensoren und den Steuerungen von Maschinen gewonnenen Daten analysiert, um Wartungsintervalle zu timen und Ausfälle zu vermeiden. Für diesen Anwendungsfall ist es aus zwei Gründen empfehlenswert, auf eine Hardware-Appliance statt auf eine Cloud-Lösung zu setzen. Erstens hat die Cloud eine zu hohe Latenzzeit, um Analyse-Ergebnisse schnell genug erzielen zu können. Zweitens müssen die Daten erst einmal in die Cloud bewegt werden – das bindet Ressourcen und ist gerade im Hinblick auf den Schutz geschäftskritischer Daten häufig nicht zu empfehlen. - Cyber-Attacken abwehren:
Die Gewährleistung eines sicheren Netzwerks für den ununterbrochenen Geschäftsbetrieb ist in der heutigen hypervernetzten Welt so wichtig wie nie zuvor. IT-Abteilungen und Sicherheitsverantwortliche stehen hier aber ebenfalls vor dem Problem, die schiere Masse an maschinengenerierten Daten zu bewältigen. Konventionelle Technologien stoßen an diesem Punkt häufig an ihre Grenzen. Ein weiterer zentraler Einsatzbereich für Big Data Analytics und speziell Graphdatenbanken ist daher die Cybersicherheit. Hier kommt es besonders auf schnelle Reaktionen an, denn sonst stehen unter Umständen Reputation und Fortkommen eines Unternehmens auf dem Spiel. Um Cyber-Angriffe oder Anomalien zu entdecken, müssen Hunderte Millionen von Logdaten analysiert werden. Kommt es dann zur Attacke auf ein Unternehmensnetzwerk, müssen Unternehmen in der Lage sein, sofort – das heißt in Echtzeit – zu reagieren.













