Effektive und schnelle Verarbeitung von großen Datenmengen ist ein Bereich des Big-Data-Gebiets. Ein großer Vorteil der Datenverarbeitung in Echtzeit ist, dass Entscheidungen und Entschlüsse deutlich früher und schneller auf der Grundlage der vorliegenden Informationen getroffen werden können.
Bei der Analyse eines kürzlich durchgeführten Projektes für einen Kunden aus der Pharmaindustrie, bei dem die Zeit der Datenverarbeitung mithilfe des Hadoop-Systems erheblich reduziert wurde, haben Apollogic-Experten entdeckt, dass das verfügbare Spektrum an Big Data-Methoden und Werkzeugen eine noch viel bessere und schnellere Verarbeitung und Verwaltung der Informationsmengen bieten.
Das erste Ziel des neuen Projekts war, eine Anwendung in der Scala-Sprache zu schaffen, die unter der Verwendung der empfangenen Daten Ergebnisse schneller liefert als je zuvor. Der nächste Schritt war die Apache Spark-Technologie zu testen, die zu Berechnungszwecken die Ressourcen des RAM- Speichers nutzt. Unsere Apollogic Big Data-Spezialisten wollten beweisen, dass die einwandfreie Implementierung des obigen Tools den Datenverarbeitungsprozess noch mal vielfach beschleunigen kann, besonders im Vergleich zu der ursprünglich verwendeten Apache Hive-Lösung. Da die Hardware-Ressourcen nur begrenzt verfügbar waren, wurden analoge Datenproben speziell zu Testzwecken mit einem Volumen von je 15 GB erstellt.