Poprawa szybkości przetwarzania danych w firmie farmaceutycznej

BRANŻA:

OBSZAR:

ZAKRES PRACY:

farmacja

przetwarzanie danych

wdrożenie środowiska Big Data

SYTUACJA WYJŚCIOWA:

W dzisiejszym świecie efektywne przetwarzanie pozyskanych danych jest podstawowym obszarem dziedziny Big Data. Biegłość w tym obszarze pozwala znacznie skrócić czas podejmowania decyzji biznesowych, a także umożliwia szybsze wyciąganie wniosków na podstawie ogromnych wolumenów danych historycznych.

Analizując niedawno zrealizowany projekt dla klienta z branży farmaceutycznej, dzięki któremu znacząco udało się skrócić czas przetwarzania danych przy pomocy ekosystemu Hadoop, eksperci Apollogic uznali, że obecnie dostępny repertuar metod i narzędzi Big Data pozwala jeszcze bardziej poprawić zarządzanie i procesowanie danych w przedsiębiorstwie.

Pierwszym celem nowego projektu było stworzenie aplikacji w języku Scala, która wykorzystując przesłane do niej dane uzyskuje rezultaty jeszcze szybciej niż było to wcześniej możliwe. Dodatkowym krokiem było przetestowanie technologii Apache Spark, która do celów obliczeniowych wykorzystuje zasoby pamięci RAM. Tym samym specjaliści Big Data Apollogic chcieli udowodnić, że poprawne wdrożenie powyższego narzędzia może przyspieszyć proces przetwarzania danych nawet kilkunastokrotnie w stosunku do rozwiązania Apache Hive, które zostało wykorzystane pierwotnie. Ze względu na ograniczoną dostępność zasobów sprzętowych przygotowane zostały analogiczne próbki danych do celów testowych o wielkości 15 GB każda.

NASZE ROZWIĄZANIE:

Odtworzenie platformy Apache Hadoop na prywatnym serwerze gdzie zreplikowane dane były poddane składowaniu
Platforma odpowiedzialna za przetwarzanie danych została zbudowana na 4-węzłowym klastrze Apache Hadoop, dystrybucji Cloudera
Optymalne wykorzystanie możliwości Apache Spark do przetwarzania danych w tym głównie użycie zmiennych „Broadcast” oraz odpowiednie przydzielenie zasobów podczas startu aplikacji
Główne parametry klastra Hadoop to: 4 Nody, pamięć RAM 128 GB, 32 procesory, 2 TB pojemności dysków

REZULTATY:

Wykorzystując technologię Apache Spark udało się skrócić czas uzyskiwania wskaźników biznesowych. Poszczególne kroki przetwarzania danych zostały ukończone od 2 do 20 razy szybciej w porównaniu do projektu opartego o technologię Apache Hive. Różny spadek czasu wykonywanych zadań był zależny od operacji wykonywanych w trakcie uzyskiwania rezultatów.
Kroki pośrednie zostały zapisane do pamięci co skróciło czas dostępu do danych, jednocześnie pozwalając na uniknięcie zbędnego ich zapisywania i utraty przestrzeni dyskowej na platformie Hadoop.
Technologia Apache Spark udowodniła, że obecnie jest jednym z najszybszych narzędzi obecnych na rynku, a jej dodatkową zaletę stanowi otwarty dostęp (Open-Source).