Einführung Big Data-Lösung

BRANCHE:

BEREICH:

ARBEITSUMFANG:

Pharmazie

Datenverarbeitung

Einführung Big Data-Lösung

AUSGANGSSITUATION:

Die Datenmenge, die aus unterschiedlichen Quellen kommt, steigt derzeit blitzschnell an. Viele Unternehmen sind nicht imstande Lösungen für ihre Verarbeitung zu finden. Sie verfügen nicht über das Wissen, wie die gewonnenen Informationen am effektivsten verarbeitet und verständlich der Führungsabteilung dargestellt werden können.

Ein ähnliches Problem hatte auch das Pharmaunternehmen. Es hatte Schwierigkeiten mit den Unmengen an Daten und deren Verarbeitung, die zu viel Zeit in Anspruch genommen hat. Deshalb entschieden sich die Führungspositionen die Informationen aus den einzelnen Datenbanken in ein Data Lake zu übertragen. Dies sollte mithilfe von Apache Hadoop geschehen. Die Lösung beschleunigt erheblich die Datenverarbeitung, die so wichtig ist für die globale Verkaufsstrategie des Unternehmens.

UNSERE LÖSUNG:

Erstellung eines Systems, das für die automatische Integration aller Daten an einen Platz (sog. Data Lake) verantwortlich ist
Das entwickelte System dient der ganzen Firma und gewährt Zugang zu granulierten, als auch integrierten und aggregierten Daten aus mehreren kommerziellen Quellen
Die Plattform, die für das Verarbeiten von Datenterabytes verantwortlich ist, wurde auf einem multi-node Apache Hadopp cluster, Cloudera distribution gebaut
Die Haupteigenschaften des Hadoop cluster sind: 18 nodes, Speicher RAM 1.32 TB, 468 Prozessoren, 919 TB Festplattenkapazität

RESULTATE:

Das Projekt nutzt die Big Data-Technologie und steigert die Geschwindigkeit der zu erwerbenden Resultate, erleichtert die Verbindung der Daten aus den unterschiedlichen Quellen und ermöglicht deren Visualisierung auf eine besonders benutzerfreundliche Weise
Die Plattform Hadoop erlaubt dem Unternehmen einen detaillierten Einblick in die Daten mit einem schnelleren Zugang zu erlangen, wodurch die Mitarbeiter keine Zeit der ständigen Integration widmen müssen
Dank der Big Data-Technologie – des Hadoop Ecosystem, sammeln sich die gesamten Daten aus den unterschiedlichen Quellen in einem Data Lake
Das Projekt erlaubt Analysen über 27 Tage früher durchzuführen als vor dem Einführen der Big Data-Technologie
Fast einen ganzen Monat früher können vorhersagende Analysen, die die globalen Verkaufsstrategie bestimmt, erstellt werden

TECHNOLOGIEN/ WERKZEUGE:

Apache Hadoop, Apache Hive, Ausrufen von BASH- Skripts mithilfe von ETL- Tool – Informatica Big Data Edition, Qlik Sense