Data Scientist – zawód przyszłości?
Przemysław Popielarski, Konsultant SAP BI
- 16 stycznia 2017
- Porady karierowe
- 4 min
Data Scientist to obecnie buzzword na rynku pracy.
Wiele firm poszukuje specjalistów na kryjące się pod tym określeniem stanowisko. Czym tak naprawdę jest Data Science? Istnieje dużo wyobrażeń na temat tego obszaru, jednak które z nich są prawdziwe? Jaki zestaw kompetencji cechuje Data Scientist z prawdziwego zdarzenia? Jakie kroki należy podjąć, aby zacząć specjalizować się w tym obszarze?
Data Science obejmuje całokształt działań związanych z przetwarzaniem danych statystycznych. Powstanie Data Science nie jest, jak się powszechnie uważa, wynikiem pojawienia się nowych potrzeb biznesowych, ale głównie rozwoju technologii.
Zapotrzebowanie na informacje uzyskaną w wyniku analizy danych istniało od zawsze. Jednakże dopiero teraz pojawiła się realna możliwość zebrania odpowiedniej ilości danych, ich opracowania, przetworzenia i uzyskania nowej jakości informacji, dających się wykorzystać w biznesie.
Potrzeba przetwarzania danych statystycznych wyłoniła się w związku z rozwojem metod analitycznych i komputerów oraz powiększaniem się dostępnych zbiorów danych. Upowszechnienie narzędzi informatycznych w biznesie, funkcjonowaniu administracji państwowej, jednostek badawczych itp. doprowadziły do powstania ogromnych baz danych.
Jednocześnie powstały algorytmy i moce obliczeniowe będące w stanie wykonywać wcześniej niemożliwe analizy tych ogromnych zbiorów danych. Wykorzystanie tych instrumentów, w tym zwłaszcza ich aplikacja w praktyce biznesowej, nie jest zagadnieniem prostym i może wymagać sięgnięcia po nowe narzędzia informatyczne.
Jak pokierować karierą w IT?
Przeczytaj wywiad z doświadczonym programistą
Data Science to nauka o tworzeniu metod analizy danych statystycznych i narzędzi do takich analiz, a także ich wykorzystywanie w praktyce, w tym w praktyce biznesowej konkretnego podmiotu zainteresowanego uzyskaniem wykorzystaniem posiadanych danych.
Data Science i Big Data – różnice
Zakres opisywanego obszaru praktyki zawodowej jest często mylony z obowiązkami Analityka Big Data. W rzeczywistości te profesje są do siebie zbliżone, jednak istnieją między nimi znaczące różnice. Spora część narzędzi sztandarowych dla Big Data w istocie znajduje zastosowania w Data Science. Big Data dotyczy sytuacji, gdy analizie podlega dużo niepewnych, różnorodnych i szybko napływających danych. Do przetwarzania takich danych używa się narzędzi Big Data, ponieważ tradycyjne narzędzia statystyczne nie są dostosowane do nieuporządkowanych zbiorów danych.
Różnica w ich wykorzystaniu w ramach Data Science jest taka, że specjalista w tym zakresie ma znacznie szerze zadanie. Nie tylko pozyskuje i wizualizuje bądź przetwarza dane, ale musi być w stanie przygotować system do ich zebrania i analizy w taki sposób, aby finalnym produktem całego procesu było uzyskanie określonych informacji. Podczas gdy Big Data obejmuje ściśle określony wycinek procesu przetwarzania danych, Data Science zajmuje się przygotowaniem i wdrożeniem systemu pozyskiwania i przetwarzania informacji (w tym również procedur wdrażanych w ramach Big Data).
Zadaniem Data Scientist jest zdefiniowanie problemu biznesowego możliwego do rozwiązania poprzez analizę danych statystycznych i dobranie odpowiednich środków służących temu celowi. Osoba mierząca się z tymi kwestiami musi wybrać je tak aby były nie tylko celowe i skuteczne, ale też wystarczająco wydajne i możliwe do praktycznej implementacji.
Data Science obejmuje wykorzystanie szerszego zakresu metod analitycznych stosowanych po przekształceniu danych. W biznesie, jak dotąd, stosowano głównie wizualizację danych statystycznych przedstawianych w odpowiednim kontekście.
Za sztandarowy przykład może służyć OLAP, który stosuje się w klasycznym Business Intelligence. W Big Data prostą wizualizację poprzedza się ekstrakcją danych ze źródeł trudnych w obróbce. Data Sciencie dodaje do tego całościowy ogląd sprawy (od zdefiniowania potrzebnych danych do samej analizy) pozwalający na dobranie odpowiedniego do potrzeb modelu statystycznego. W tym obszarze kładzie się również nacisk na uczenie maszynowe (machine learning).
Konieczność tak ogólnego podejścia do problemu czyni opisywany zawód tak specyficznym. Data Scientist mając problem do rozwiązania musi zastosować model analityczny do danych uzyskanych z wielu zbiorów nieustrukturyzowanych informacji – znając metody analizy danych musi „stworzyć maszynę” do wykonania tego konkretnego, postawionego przed nim zadania. Wszystkie elementy stworzonego rozwiązania muszą ze sobą współgrać. Dlatego najkrótszą definicją tego zawodu może być „architekt rozwiązań wykorzystujących technologie i metody analizy danych”.
Jak zostać „naukowcem od danych”?
Jak zacząć karierę Data Scientist? Osoba chcąca rozwijać się w tym kierunku powinna nabyć szereg pożądanych w tym zawodzie cech. Wymaga on bardzo szerokich kwalifikacji. Spośród umiejętności miękkich pożądana jest przede wszystkim łatwość w rozumieniu potrzeb biznesu i wyjaśniania swoich myśli. Komunikat kreowany przez specjalistę musi zostać właściwie zrozumiany przez odbiorcę, który nie rozumie wszystkich procesów.
Przy tworzeniu rozwiązania Data Scientist musi mieć pewność, że rzeczywiście stanowi ono odpowiedź na problemy klienta oraz być w stanie pomóc mu właściwie wykorzystać przygotowane narzędzia. Przydatne okazują się też dociekliwość i nieszablonowe myślenie. Taka osoba powinna również posiadać szeroką wiedzę z zakresu matematyki, statystyki i programowania.
Najważniejszą cechę stanowi jednak wytrwałość i dociekliwość w poszukiwaniu rozwiązań i pasja w analizowaniu. Nie ma możliwości poznania wszystkich algorytmów i metod analitycznych, dlatego konieczne jest szukanie coraz to nowszych możliwości i sprawdzanie ich dopasowania do określonego problemu. Znajomość zagadnień matematycznych również może okazać się przydatna, gdyż w konkretnych dziedzinach w grę wchodzą różne narzędzia.
Przykładowo, aparat matematyczny stosowany w finansach oparty jest na skomplikowanych równaniach różniczkowych. Modelowanie matematyczne też może okazać się przydatne. Nie można jednak powiedzieć aby istniał sztywny zestaw reguł czy ustalony zbiór umiejętności wymaganych w tym zawodzie. W ostatecznym rozrachunku obok wymienionych kompetencji liczy się także umiejętność ich wykorzystania w praktyce – kreatywność i determinacja w szukaniu dróg do rozwiązania określonych problemów.
Jakie są realia pracy Data Scientist?
Przeważnie Data Scientist to osoby dobrze znające dziedzinę, którą analizują. Bardzo często mają doświadczenia akademickie. Pracy naukowa umożliwiła im tworzenie skomplikowanych systemów analitycznych, wykorzystujących najnowsze osiągnięcia w dziedzinie uczenia maszynowego i algorytmów przetwarzania danych.
Przyglądając się przeszłości autorytetów w tej dziedzinie można zauważyć, że znaczna większość z nich to badacze z kilkuletnim doświadczeniem w pracy na uniwersytetach, którzy zajmowali się dziedziną zbliżoną do uczenia maszynowego, jak na przykład fizyką, matematyką, robotyką lub informatyką. Ich praca jednak sprowadzała się do analizy danych.
Przeważnie Data Scientists byli lub są naukowcami zajmującymi się uczeniem maszynowym lub metodami przetwarzania danych. Obecnie jednak dziedzina ta wychodzi ze swojego pionierskiego etapu i nowi Data Scientists będą się rekrutować pośród ludzi zajmujących się jedną z dziedzin wchodzących w spektrum zainteresowań Data Science. Zdecydowaną przewagę mają jednak analitycy danych, którzy poznali metody uczenia maszynowego i programowanie. Dzięki temu potrafią myśleć jak statystycy i poznali najważniejsze narzędzia stosowane w Data Science.
Zdecydowanie praca Data Scientist nie należy do monotonnych, a tworzenie schematu analizy każdorazowo stanowi wyzwanie.
Pozwala ponadto na poznanie bardzo szerokiego zbioru narzędzi stosowanych nie tylko w analizie danych, ale też programowania.
Chcesz zacząć karierę IT? Szukamy też ludzi bez doświadczenia:
- On 16/01/2017
0 Comments