Data Science – czym jest ta nauka związana z analizą danych?

Każda firma zbiera dane o swojej działalności, ale nie każda je wykorzystuje. Firmy analizujące dane i podejmujące decyzje w oparciu o nie rosną o 6% szybciej, niż gdyby tego nie robiły. Z danych kolekcjonowanych przez większość przedsiębiorstw łatwo jest odczytać informacje o tym, jak plasują się poszczególne metryki. Jest to cenna wiedza, ale nie daje bezpośredniego przełożenia na wsparcie podejmowanych przez zarząd decyzji. Sprzedaż produktów przedsiębiorstwa w bieżącym kwartale wzrosła o 20%, ale czy wiemy, dlaczego tak się stało? Bez data science możemy jedynie przypuszczać na podstawie wiedzy eksperckiej, ale prawdziwą przewagę konkurencyjną można zbudować, kiedy ma się pewność w oparciu o twarde dane. I tym właściwie zajmuje się nauka o danych, czyli data science.

Poznaj Tableau – narzędzie business intelligence

Definicja data science w prostych słowach

Data Science to pojęcie obejmujące wszelkie metody naukowe leżące w zakresie analizy danych. Dzięki nim można wyłuskać z pozornie mało użytecznej bazy danych cenną wiedzę. Do tych celów data scientist, czyli ekspert data science, używa specjalnych algorytmów eksploracji danych (data mining), modeli uczenia maszynowego (machine learning) oraz sztucznej inteligencji. Algorytmy te mają na celu oczyścić i odpowiednio ustrukturyzować zbiór danych, a następnie zbadać wzorce i zależności jakie między nimi występują i wyciągnąć wnioski.

Po co firmy korzystają z data science?

Celem, dla którego używa się data science może być szukanie nowych źródeł zysku. Dobrym przykładem jest odkrywanie najczęściej kupowanych ze sobą produktów. Odbywa się to poprzez analizę koszykową, a następnie ustawianie tych towarów na półce obok siebie. Dzięki temu zwiększy się prawdopodobieństwo kupienia obu produktów. Inne analizy z obszaru data science mogą służyć do zapobiegania potencjalnym stratom.

Za przykład może posłużyć model uczenia maszynowego szukający wzorców klientów odchodzących i automatycznie wysyłający do nich odpowiednią komunikację marketingową. Mogą to być również algorytmy optymalizujące pracę i czas osób zatrudnionych w firmie. Przykładowo, mogą one segregować zadania do wykonania według priorytetu obliczanego na podstawie wartości klienta i pilności zadania. Nie da się ukryć, że dobry data scientist zatrudniony w twojej firmie zdecydowanie wspomoże podejmowanie decyzji w spółce.

Dlaczego data scientist to ważne stanowisko w firmie?

Niestety, analiza danych wymaga dużego zaznajomienia z tematem i ciężko jest zbudować dobry model lub algorytm bez odpowiedniej wiedzy eksperckiej. Dlatego też większość firm zatrudnia do tego celu specjalistów, którzy będą zajmować się tematem zbierania, przetwarzania i analizy danych. Takich specjalistów określamy mianem data scientists. Należy jednak pamiętać, że przy dużych przedsięwzięciach analitycznych oraz związaną z tym wizualizacją danych jeden specjalista to za mało, dlatego większe firmy często mają osobny dział analityczny.

Czym zajmuje się data scientist?

Podstawowymi działaniami w dziale data science jest utrzymanie i rozbudowa architektury danych oraz całego obszaru analityki i raportowania. W małych i średnich przedsiębiorstwach, chcących zbudować przewagę konkurencyjną na polu analizy danych, projekty implementacji produkcyjnego środowiska analitycznego często podejmowane są przez wyspecjalizowane firmy zewnętrzne. Jednym z założeń takiego projektu jest transfer wiedzy eksperckiej, koniecznej do utrzymania wdrożonego środowiska. Docelowo w firmie może już zajmować się tym jeden data scientist lub niewielki dział data science.

Inżynieria danych jako podstawa data science

Aby wdrażać w przedsiębiorstwie procesy i analizy z obszaru data science, potrzebna jest odpowiednia architektura danych. Narzędzia i modele potrzebują danych odpowiednio zebranych i przygotowanych, aby móc na ich podstawie budować wnioski. Całym tym procesem, leżącym u fundamentów data science, jest więc inżynieria danych (data engineering). Osoba specjalizująca się w tym obszarze to data engineer.

Czym zajmuje się data engineer?

Analiza danych w większości przedsiębiorstw powinna zawierać dane z więcej niż jednego źródła. Warto np. zestawiać te transakcyjne z marketingowymi, aby badać jak poszczególne kampanie wpływają na sprzedaż. Niestety dane te przechowuje się w różnych bazach i źródłach, zagregowane w różny sposób i często niełatwo je połączyć. W praktyce źródeł danych w przedsiębiorstwie jest zazwyczaj więcej niż dwa. Do tego dochodzą liczne tabele słownikowe, skomplikowane warunki łączenia, a same w sobie dane często bywają zanieczyszczone.

Inżynieria danych powinna wkraczać w proces na bardzo wczesnym etapie, często nawet przy projektowaniu baz transakcyjnych i innych systemów zbierających informacje. Dzięki temu dane od samego początku są jak najbardziej spójne, czyste i zdatne do analizy.

Słownik pojęć: kim są Data Scientist i Data Engineer?

Kilka słów o hurtowni danych

Narzędzia i metody inżynierii danych przystosowano do tego, by ekstrahować dane ze źródeł, odpowiednio je przetransformować i oczyścić, a na końcu załadować do jednego miejsca, gdzie mogą podlegać procesom analizy danych. Miejscami takimi najczęściej są hurtownie danych. Przechowywane tam bazy danych składuje się bowiem na bardzo długi czas, a hurtownia oprócz celów analitycznych może służyć jako archiwum.

Dobra hurtownia danych powinna więc odznaczać się przede wszystkim skalowalnością, trwałością, bezpieczeństwem i szybkością przetwarzania zapytań. To ostatnie ma szczególne znaczenie w obszarze data science.

Słownik pojęć: co to są Data Science i hurtownia danych?

ETL nieodłącznym elementem data science

Procesy i narzędzia służące do ekstrakcji, przetwarzania i ładowania danych do hurtowni nazywa się ETL (Extract, Transform, Load). Przez transformację danych rozumie się głównie takie procesy jak radzenie sobie z brakami danych, obserwacjami odstającymi, rozkładami poszczególnych zmiennych, a także agregację zbioru do pożądanego poziomu. Niekoniecznie potrzebujemy danych o każdym zdarzeniu – wystarczy agregat zdarzeń w każdej godzinie. Agregacja ułatwia przechowywanie bardzo dużych ilości danych, a często jest wymagana, żeby rozpocząć analizowanie danych i inne procesy.

Analiza eksploracyjna – odkrywanie wzorców w danych

Jednym z głównych obszarów data science jest analiza eksploracyjna, której celem jest przede wszystkim odkrywanie wzorców i zależności w danych. Ma ona duże zastosowanie praktyczne, ponieważ odkryte zależności można eksploatować na korzyść przedsiębiorstwa. Jednym z obszarów analizy eksploracyjnej, którą zajmuje się analityk danych, jest analiza regresji i badanie korelacji względem kluczowych zmiennych.

Przykładem może być odkrywanie inwestycji mających silny dodatni wpływ na zmienne – takie jak wielkość sprzedaży czy liczba zakupionych produktów – lub ujemny wpływ na koszty produkcji. Dzięki takiej informacji kierownictwo biznesowe nie musi domyślać się, które inwestycje są najbardziej opłacalne, a które tylko wydawały się trafione.

Słownik pojęć: co to są ETL i analiza eksploracyjna?

Analityk danych musi zajmować się również segmentacją danych

Innym zadaniem analityka danych podczas przeprowadzania analizy eksploracyjnej jest grupowanie i segmentacja. Jest to wyszukiwanie obserwacji zbliżonych do siebie za pomocą odpowiednich algorytmów i dzielenie ich na możliwie najbardziej jednorodne segmenty. Powinny one być zróżnicowane. Odpowiednia interpretacja cech wyróżniających poszczególne segmenty może przynieść znaczną poprawę w zarządzaniu danymi.

Za przykład może posłużyć segmentacja klientów w celu dostosowania komunikacji marketingowej. To bardzo ważne, ponieważ inne materiały promocyjne powinny trafiać do stałych klientów, a inne do osób bliskich odejścia do konkurencji. Segmentów oczywiście może być bardzo wiele, a wewnątrz każdego z nich można przeprowadzać dalsze mikrosegmentacje i budować osobne modele.

Analiza koszykowa i sekwencyjna kolejnymi pojęciami z zakresu data science

Do obszaru analizy eksploracyjnej należą również analiza koszykowa i sekwencyjna. To jest badanie produktów często kupowanych w jednym koszyku lub po sobie, a także klasyfikacja obserwacji na podstawie ich cech (np. model drzewa decyzyjnego klasyfikujący dostawców pod względem opłacalności) oraz analiza sentymentu, czyli wychwytywanie poziomu zadowolenia ze zbieranego feedbacku przy pomocy algorytmów sztucznej inteligencji.

Wyżej wymienione analizy – i wiele innych z obszaru analizy eksploracyjnej – wykonuje się najczęściej przy pomocy algorytmów lub modeli uczenia maszynowego. Przedsiębiorstwa wykorzystują je w celu zdobycia przewagi konkurencyjnej i wydobycia cennych wniosków ze zbieranych danych.

Analiza predykcyjna – czym jest ta technika data science?

Drugim z głównych obszarów data science jest analiza predykcyjna. Polega ona na budowie modeli uczenia maszynowego, które na podstawie zestawu danych będą w stanie przewidzieć wartość zmiennej celu dla każdej obserwacji przy konkretnych założeniach.

Innymi słowy, ta technika pozwala na przewidzenie przyszłych wartości, których z wiadomych przyczyn nie ma jeszcze w strukturze baz danych. Model taki nie ma stuprocentowej dokładności, ale jeśli po jej zmierzeniu wyniki są satysfakcjonujące, znaczy to, że model jest dobry.

Kiedy stosujemy analizę predykcyjną?

Analizę predykcyjną można stosować przede wszystkim w celu automatyzacji procesu podejmowania decyzji. Dobrym przykładem jest credit scoring, czyli predykcja: czy klient o danym zestawie cech spłaci kredyt (czyli de facto decyzja, czy można mu tego kredytu udzielić). Można też przewidywać, czy klient niedługo dokona zakupu lub przestanie korzystać z naszych usług.

Predykcja może dotyczyć również zmiennych ciągłych, takich jak np. wartość klienta (CLTV) oraz wycena produktu lub usługi. Celem analizy jest więc zawsze podjęcie opartej o predykcję decyzji, która pozwoli dostosować się do sytuacji. Przykładowo: wysłać odpowiednią komunikację marketingową lub udzielić rabatu klientom zagrożonym odejściem.

Słownik pojęć: co to są analiza sekwencyjna i analiza predykcyjna?

Analiza predykcyjna a wiedza z zakresu uczenia maszynowego

Analiza predykcyjna zazwyczaj opiera się o uczenie maszynowe (machine learning). Oznacza to, że algorytm podejmuje decyzję o przewidywanej wartości na podstawie wcześniejszej nauki. Model dostaje treningowy zbiór danych, który zawiera odpowiednie informacje wraz z wynikiem zmiennej celu.

Po zaznajomieniu się z tym, dla jakich konfiguracji pozostałych zmiennych przyjmowana jest dana wartość zmiennej objaśnianej, model jest w stanie stwierdzić, które zmienne mają na nią istotny wpływ i w jakim stopniu. Dzięki temu po otrzymaniu zbioru danych bez określonej wartości zmiennej celu, algorytm będzie w stanie ją niejako „przewidzieć”. Zrobi to na podstawie innych obserwacji dostarczonych w procesie uczenia.

Poznaj Tableau – narzędzie business intelligence

Zrozumienie analizy predykcyjnej oraz data science w praktyce

Można to porównać do pracownika, który po przejrzeniu tysięcy wniosków kredytowych z przeszłości jest w stanie ocenić, czy przy nowym wniosku można tego kredytu udzielić. Model może uczyć się na setkach milionów obserwacji we względnie krótkim czasie, jeśli sprzyja temu architektura danych.

Samych algorytmów machine learning jest wiele, a każdy z nich uczy się w inny sposób. Ciężko wybrać jeden, uniwersalny model, najlepszy w każdym przypadku. Dlatego właśnie rolą data scientists jest umieć zaimplementować odpowiednie algorytmy i odpowiednio dobrać ich parametry. Następnie porównują oni wyniki i wybierają najlepszy w danym przypadku.

Istnieją na rynku narzędzia klasy Auto ML do automatyzacji tych procesów. Potrafią one dobrać parametry modeli przy pomocy sztucznej inteligencji, jednak indywidualne podejście do tematu i dostosowanie modelu do specyfiki biznesu daje zawsze lepsze efekty. Dlatego zaznajomiony z tematem data science specialist jest tak ważny w całym procesie.

Produkcyjna implementacja modeli – automatyzacja pracy w data science

Stworzenie dobrego modelu wymaga wiele pracy. Składa się na to odpowiednie przygotowanie zbioru danych, sprawdzenie spełnienia wszystkich założeń i budowa wielu modeli. Następnie należy porównać je i wybrać najlepszy.

Praca ta jednak nie musi być wykonywana za każdym razem, kiedy chcemy użyć modelu na nowych danych, o ile nie różnią się one znacząco od danych, na których algorytm był trenowany. Dlatego też większość poprawnie zbudowanych i dobrze funkcjonujących modeli wdraża się „na produkcję”. Oznacza to, że programuje się je w taki sposób, żeby automatycznie co jakiś czas były stosowane na nowych danych pojawiających się w hurtowni.

Odpowiednio zakodowany algorytm jest w stanie automatycznie co jakiś czas przeliczyć model. Polega to na kolejnym stworzeniu wielu wersji modelu i wybraniu najlepszej. Może być to przydatne, ponieważ w większości biznesów zmienia się środowisko, a co za tym idzie – zmieniają się też dane. Model wytrenowany na danych wygenerowanych w innych okolicznościach nie sprawdzi się dobrze na nowych danych, które mogą być zupełnie inne.

Prawidłowo zaimplementowany model powinien więc co jakiś czas być automatycznie przeliczany i dostosowywany. Musi być także stale stosowany na świeżo generowanych danych. Oczywiście to, jak często będzie się to działo, zależy od mocy obliczeniowej, którą dysponujemy.

Jak wygląda data science w rozwiniętej analitycznie firmie?

W dojrzałej analitycznie firmie, w której data science jest rozwinięta na wysokim poziomie, na produkcję implementowanych jest wiele różnych modeli. Można stwierdzić, że „współpracują” one ze sobą, czyli wzajemnie korzystają z wygenerowanych przez siebie dodatkowych informacji.

Przykładowo segment klienta z modelu segmentacji może być cenną informacją wejściową do modelu predykcyjnego, odpowiadającego za przewidywanie wartości klienta. Niełatwą sztuką jest więc takie zaprogramowanie ich odświeżania, aby cały ten ekosystem mógł działać płynnie i poprawnie.

Z pomocą przychodzą orkiestratory

Szczególnie ważne jest to w sytuacji, kiedy firma dysponuje ograniczonymi zasobami mocy obliczeniowej. Dlatego też często wykorzystuje się specjalne narzędzia zwane orkiestratorami, dzięki którym można planować, kiedy serwer zacznie odpowiedni proces. Począwszy od ETL, poprzez załadowanie danych do hurtowni, pobranie ich do modelu, przeliczenie, aż po zwrócenie wyników do hurtowni.

Oczywiście, wraz ze wzrostem wolumenów danych może zaistnieć konieczność powiększenia hurtowni danych lub dostarczenia większej liczby serwerów do modelowania. Można to rozwiązać, przenosząc całą architekturę danych do chmury. Tam, w każdym momencie, możemy wynająć dodatkowe miejsce lub moc obliczeniową w miarę rosnących potrzeb.

Jak data science radzi sobie z ogromną ilością danych?

W tym miejscu należałoby też wspomnieć o tym, co można zrobić w przypadku, gdy danych jest naprawdę dużo i pojedyncze jednostki obliczeniowe nie są w stanie przetworzyć ich w zadowalającym czasie. Można tu podać za przykład analizę obrazów, dźwięków albo ogromnych zbiorów danych pochodzących np. z logów strony internetowej.

W takiej sytuacji należy użyć narzędzi klasy Big Data, które, korzystając na przykład z algorytmów map-reduce, rozdzielają zadania przeliczenia danych na wiele serwerów połączonych ze sobą i zbierają wyniki w całość. W ten sposób można przetworzyć dane wielokrotnie szybciej, a to, jak szybko będzie się to odbywało, zależy od liczby wynajętych serwerów. Dzięki rozwiązaniom klasy Big Data można używać algorytmów data science na bardzo dużych zbiorach danych.

Wykorzystanie data science w praktyce

Ostatnim etapem jest wykorzystanie dodatkowych informacji, które otrzymujemy dzięki data science. Oczywiście można samemu przeglądać wyniki analiz i wyciągać z nich odpowiednie wnioski, ale kluczem do zwinnego i szybko reagującego biznesu jest automatyzacja również tego procesu.

Tutaj rozwiązania są różne – w przypadku analizy eksploracyjnej dobrą praktyką jest na przykład wizualizacja wniosków na dashboardzie. Do tego celu mogą posłużyć specjalne programy klasy BI, czyli Business Intelligence (np. Tableau).

Dzięki temu osoby decyzyjne mają szybki i łatwo interpretowalny wniosek na wyciągnięcie ręki. Przykładem może być wykres lub tabela prezentująca w możliwie najbardziej czytelny sposób wyniki analizy koszykowej lub sekwencyjnej.

Poznaj Tableau – narzędzie business intelligence

Grafika przedstawiająca statystyki odwiedzin na stronie docelowej

Wykorzystanie data science w biznesie

Drugą opcją jest wykorzystanie wyników modeli o charakterze decyzyjnym. Oczywiście te informacje można również wizualizować w BI, jednak prawdziwą wartość stanowi ich automatyczne wykorzystanie w biznesie.

Najczęściej polega to na przekazaniu informacji otrzymanej z modelu do odpowiedniego systemu, który tę informację we właściwy sposób wykorzysta. Przykładem może być dostarczanie informacji o segmencie klienta lub jego prawdopodobnym odejściu do systemu CRM, gdzie można stworzyć zadania dla pracowników oraz dostosować automatyczną wysyłkę maili.

Dzięki temu wartość wiedzy płynącej z data science zostaje automatycznie wykorzystana, a firma osiąga przewagę konkurencyjną bez angażowania zbędnych zasobów.

Jeśli chcesz poznać odpowiedzi na nurtujące Cię pytania na temat narzędzia Business Intelligence – Tableau – ten artykuł może Cię zainteresować! Jeśli natomiast chcesz poszerzyć swoją wiedzę z zakresu analizy danych – dowiedz się, w jaki sposób przygotować dane do analizy!

Możesz także zapoznać się ze stroną główną Tableau w języku angielskim.