Big Data Datenverarbeitung

BRANCHE:

BEREICH:

ARBEITSUMFANG:

Pharmazie

Datenverarbeitung

Einführung Big Data

AUSGANGSSITUATION:

Effektive und schnelle Verarbeitung von großen Datenmengen ist ein Bereich des Big-Data-Gebiets. Ein großer Vorteil der Datenverarbeitung in Echtzeit ist, dass Entscheidungen und Entschlüsse deutlich früher und schneller auf der Grundlage der vorliegenden Informationen getroffen werden können.

Bei der Analyse eines kürzlich durchgeführten Projektes für einen Kunden aus der Pharmaindustrie, bei dem die Zeit der Datenverarbeitung mithilfe des Hadoop-Systems erheblich reduziert wurde, haben Apollogic-Experten entdeckt, dass das verfügbare Spektrum an Big Data-Methoden und Werkzeugen eine noch viel bessere und schnellere Verarbeitung und Verwaltung der Informationsmengen bieten.

Das erste Ziel des neuen Projekts war, eine Anwendung in der Scala-Sprache zu schaffen, die unter der Verwendung der empfangenen Daten Ergebnisse schneller liefert als je zuvor. Der nächste Schritt war die Apache Spark-Technologie zu testen, die zu Berechnungszwecken die Ressourcen des RAM- Speichers nutzt. Unsere Apollogic Big Data-Spezialisten wollten beweisen, dass die einwandfreie Implementierung des obigen Tools den Datenverarbeitungsprozess noch mal vielfach beschleunigen kann, besonders im Vergleich zu der ursprünglich verwendeten Apache Hive-Lösung. Da die Hardware-Ressourcen nur begrenzt verfügbar waren, wurden analoge Datenproben speziell zu Testzwecken mit einem Volumen von je 15 GB erstellt.

UNSERE LÖSUNG:

Wiederherstellung der Apache Hadoop-Plattform auf einem privaten Server, auf dem die wiederhergestellten Daten zur Lagerung abgelegt wurden
Eine für die Datenverarbeitung verantwortliche Plattform wurde auf einem 4-node cluster Apache Hadoop, Cloudera Distribution gebaut
Optimale Nutzung der Apache Spark-Möglichkeiten zum Verarbeiten von Daten, darunter hauptsächlich die Verwendung von „Broadcast”-Variablen und die entsprechende Zuweisung der Ressourcen zu Beginn der Applikation
Hauptparameter des Hadoop cluster sind: 4 Nodes, memory RAM 128 GB, 32 Prozessoren, 2 TB Laufwerkvolumens.

RESULTATE:

Durch die Verwendung der Apache Spark-Technologie ist es gelungen, die Zeit bis zum Ergebnis der Geschäftsindikatoren deutlich zu verkürzen. Die einzelnen Schritte der Datenverarbeitung sind teilweise bis zu 20 Mal schneller im Vergleich zu der vorher genutzten Apache Hive basierten Technologie. Unterschiedliche Operationen brachten unterschiedliche Ergebnisse bezüglich der Zeitersparnis.
Indirekte Schritte wurden im Speicher abgelegt, wodurch die Zeit für den Zugriff auf die Daten verkürzt wurde. Gleichzeitig konnten unnötige Speicher- und Speicherplatzverluste auf der Hadoop-Plattform vermieden werden.
Die Apache Spark-Technologie bewies, dass sie gegenwärtig auf dem Markt eine der schnellsten Tools ist und dass der offene Zugang (Open-Source) einen ihrer Vorteile darstellt.

TECHNOLOGIE:

Apache Spark, Apache Hadoop, Apache Hive, Scala