W dzisiejszym świecie efektywne przetwarzanie pozyskanych danych jest podstawowym obszarem dziedziny Big Data. Biegłość w tym obszarze pozwala znacznie skrócić czas podejmowania decyzji biznesowych, a także umożliwia szybsze wyciąganie wniosków na podstawie ogromnych wolumenów danych historycznych.
Analizując niedawno zrealizowany projekt dla klienta z branży farmaceutycznej, dzięki któremu znacząco udało się skrócić czas przetwarzania danych przy pomocy ekosystemu Hadoop, eksperci Apollogic uznali, że obecnie dostępny repertuar metod i narzędzi Big Data pozwala jeszcze bardziej poprawić zarządzanie i procesowanie danych w przedsiębiorstwie.
Pierwszym celem nowego projektu było stworzenie aplikacji w języku Scala, która wykorzystując przesłane do niej dane uzyskuje rezultaty jeszcze szybciej niż było to wcześniej możliwe. Dodatkowym krokiem było przetestowanie technologii Apache Spark, która do celów obliczeniowych wykorzystuje zasoby pamięci RAM. Tym samym specjaliści Big Data Apollogic chcieli udowodnić, że poprawne wdrożenie powyższego narzędzia może przyspieszyć proces przetwarzania danych nawet kilkunastokrotnie w stosunku do rozwiązania Apache Hive, które zostało wykorzystane pierwotnie. Ze względu na ograniczoną dostępność zasobów sprzętowych przygotowane zostały analogiczne próbki danych do celów testowych o wielkości 15 GB każda.