Skip to content

Data science – czym jest ta nauka będąca w zakresie analizy danych

Każda firma zbiera dane o swojej działalności, ale nie każda je wykorzystuje. Badania dowodzą, że firmy analizujące swoje dane i podejmujące decyzje w oparciu o nie rosną o 6% szybciej niż byłoby to oczekiwane, gdyby tego nie robiły. Z danych kolekcjonowanych przez większość przedsiębiorstw łatwo jest odczytać informacje o tym, jak plasują się poszczególne metryki. Jest to cenna wiedza, ale nie daje bezpośredniego przełożenia na wsparcie podejmowanych przez zarząd decyzji.

Sprzedaż produktów przedsiębiorstwa w bieżącym kwartale wzrosła o 20%, ale czy wiemy, dlaczego tak się stało? Bez data science możemy jedynie przypuszczać na podstawie wiedzy eksperckiej, ale prawdziwą przewagę konkurencyjną można zbudować, kiedy ma się pewność w oparciu o twarde dane. I tym właściwie zajmuje się nauka o danych, czyli data science.

Definicja data science w prostych słowach

Data Science to pojęcie obejmujące wszelkie metody naukowe leżące w zakresie analizy danych, dzięki którym można wyłuskać z pozornie mało użytecznej bazy danych cenną wiedzę. Do tych celów data scientist, czyli ekspert data science, używa specjalnych algorytmów eksploracji danych (data mining), modeli uczenia maszynowego (machine learning) oraz sztucznej inteligencji. Algorytmy te mają na celu oczyścić i odpowiednio ustrukturyzować zbiór danych, a następnie zbadać wzorce i zależności jakie między nimi występują i wyciągnąć wnioski.

Po co firmy korzystają z data science?

Celem, dla którego używa się data science może być szukanie nowych źródeł zysku. Dobrym przykładem jest odkrywanie najczęściej kupowanych ze sobą produktów poprzez analizę koszykową, a następnie ustawianie tych towarów na półce obok siebie. Dzięki temu zwiększy się prawdopodobieństwo kupienia obu produktów. Inne analizy z obszaru data science mogą służyć do zapobiegania potencjalnym stratom.

Za przykład może posłużyć model uczenia maszynowego szukający wzorców klientów odchodzących i automatycznie wysyłający do nich odpowiednią komunikację marketingową. Mogą to być również algorytmy optymalizujące pracę i czas osób zatrudnionych w firmie. Przykładowo, mogą one segregować zadania do wykonania według priorytetu obliczanego na podstawie wartości klienta i pilności zadania. Nie da się ukryć, że dobry data scientist zatrudniony w twojej firmie zdecydowanie wspomoże podejmowanie decyzji w spółce.

Dlaczego data scientist to ważne stanowisko w firmie?

Niestety, analiza danych wymaga dużego zaznajomienia z tematem i ciężko jest zbudować dobry model lub algorytm bez odpowiedniej wiedzy eksperckiej. Dlatego też większość firm zatrudnia do tego celu specjalistów, którzy będą zajmować się tematem zbierania, przetwarzania i analizy danych. Tacy specjaliści określani są mianem data scientists. Należy jednak pamiętać, że przy dużych przedsięwzięciach analitycznych oraz związaną z tym wizualizacją danych jeden specjalista to za mało, dlatego większe firmy często mają osobny dział analityczny.

Czym zajmuje się data scientist?

Podstawowymi działaniami w dziale data science jest utrzymanie i rozbudowa architektury danych oraz całego obszaru analityki i raportowania. W małych i średnich przedsiębiorstwach, chcących zbudować przewagę konkurencyjną na polu analizy danych, projekty implementacji produkcyjnego środowiska analitycznego często podejmowane są przez firmy zewnętrzne, które w tym się specjalizują. Jednym z założeń takiego projektu jest transfer wiedzy eksperckiej, koniecznej do utrzymania wdrożonego środowiska, czym w firmie może już później zajmować się jeden data scientist lub niewielki dział data science.

Inżynieria danych jako podstawa data science

Aby wdrażać w przedsiębiorstwie procesy i analizy z obszaru data science, potrzebna jest odpowiednia architektura danych. Narzędzia i modele potrzebują danych odpowiednio zebranych i przygotowanych, aby móc na ich podstawie budować wnioski. Całym tym procesem leżącym u fundamentów data science jest więc inżynieria danych (data engineering), a osoba w firmie zajmująca się tym obszarem określana jest mianem data engineer.

Czym zajmuje się data engineer?

Analiza danych w większości przedsiębiorstw powinna zawierać dane z więcej niż jednego źródła, np. zestawiać te transakcyjne z marketingowymi, aby badać jak poszczególne kampanie wpływają na sprzedaż. Problem w tym, że dane te są przechowywane w różnych bazach i źródłach, zagregowane w różny sposób i często niełatwo jest je połączyć. W praktyce źródeł danych w przedsiębiorstwie jest zazwyczaj więcej niż dwa, a do tego dochodzą liczne tabele słownikowe, skomplikowane warunki łączenia, a same w sobie dane są często zanieczyszczone.

Inżynieria danych powinna wkraczać w proces na bardzo wczesnym etapie, często nawet przy projektowaniu baz transakcyjnych i innych systemów zbierających informacje. Dzięki temu dane od samego początku są jak najbardziej spójne, czyste i zdatne do analizy.

Kilka słów o hurtowni danych

Narzędzia i metody inżynierii danych są przystosowane do tego, by wyekstrahować dane ze źródeł, odpowiednio je przetransformować i oczyścić, a na końcu załadować do jednego miejsca, gdzie mogą podlegać procesom analizy danych. Miejscami takimi najczęściej są hurtownie danych, ponieważ przechowywane tam bazy danych są składowane na bardzo długi czas, a hurtownia oprócz celów analitycznych może służyć jako archiwum.

Dobra hurtownia danych powinna więc odznaczać się przede wszystkim skalowalnością, trwałością, bezpieczeństwem i szybkością przetwarzania zapytań (to ostatnie ma szczególne znaczenie w obszarze data science).

ETL nieodłącznym elementem data science

Procesy i narzędzia służące do ekstrakcji, przetwarzania i ładowania danych do hurtowni nazywa się ETL (Extract, Transform, Load). Przez transformację danych rozumie się głównie takie procesy jak radzenie sobie z brakami danych, obserwacjami odstającymi, rozkładami poszczególnych zmiennych, a także agregację zbioru do pożądanego poziomu (np. niekoniecznie potrzebujemy danych o każdym zdarzeniu, a wystarczy nam agregat zdarzeń w każdej godzinie). Agregacja ułatwia przechowywanie bardzo dużych ilości danych, a często jest wręcz wymagana, żeby rozpocząć analizowanie danych i inne procesy data science.

Analiza eksploracyjna – odkrywanie wzorców w danych

Jednym z głównych obszarów data science jest analiza eksploracyjna, której celem jest przede wszystkim odkrywanie wzorców i zależności w danych. Ma ona duże zastosowanie praktyczne, ponieważ odkryte zależności można eksploatować na korzyść przedsiębiorstwa. Jednym z obszarów analizy eksploracyjnej, którą zajmuje się analityk danych, jest analiza regresji i badanie korelacji względem kluczowych zmiennych.

Przykładem może być odkrywanie inwestycji mających silny dodatni wpływ na zmienne – takie jak wielkość sprzedaży czy liczba zakupionych produktów – lub ujemny wpływ na koszty produkcji. Dzięki takiej informacji kierownictwo biznesowe nie musi domyślać się, które inwestycje są najbardziej opłacalne, a które tylko wydawały się trafione.

Analityk danych musi zajmować się również segmentacją danych

Innym zadaniem analityka danych podczas przeprowadzania analizy eksploracyjnej jest grupowanie i segmentacja. Jest to wyszukiwanie obserwacji zbliżonych do siebie za pomocą odpowiednich algorytmów i dzielenie ich na możliwie najbardziej jednorodne segmenty. Powinny one być zróżnicowane. Odpowiednia interpretacja cech wyróżniających poszczególne segmenty może przynieść znaczną poprawę w zarządzaniu danymi.

Za przykład może posłużyć segmentacja klientów w celu dostosowania komunikacji marketingowej. Jest to bardzo pożądany zabieg, ponieważ inne materiały promocyjne powinny trafiać do stałych klientów, a inne do osób bliskich odejścia do konkurencji. Segmentów oczywiście może być bardzo wiele, a wewnątrz każdego z nich można przeprowadzać dalsze mikrosegmentacje i budować osobne modele.

Analiza koszykowa i sekwencyjna kolejnymi pojęciami z zakresu data science

Do obszaru analizy eksploracyjnej należą również analiza koszykowa i sekwencyjna, czyli badanie produktów często kupowanych w jednym koszyku lub po sobie, a także klasyfikacja obserwacji na podstawie ich cech (np. model drzewa decyzyjnego klasyfikujący dostawców pod względem opłacalności) oraz analiza sentymentu, czyli wychwytywanie poziomu zadowolenia ze zbieranego feedbacku przy pomocy algorytmów sztucznej inteligencji.

Wyżej wymienione analizy, a także wiele innych z obszaru analizy eksploracyjnej, wykonywane są najczęściej przy pomocy algorytmów lub modeli uczenia maszynowego. Są one wykorzystywane przez przedsiębiorstwa w celu zdobycia przewagi konkurencyjnej i wydobycia cennych wniosków ze zbieranych danych.

Analiza predykcyjna – czym jest ta technika data science?

Drugim z głównych obszarów data science jest analiza predykcyjna. Polega ona na budowie modeli uczenia maszynowego, które na podstawie zestawu danych będą w stanie przewidzieć wartość zmiennej celu dla każdej obserwacji przy konkretnych założeniach.

Innymi słowy, ta technika analizy danych pozwala na przewidzenie przyszłych wartości, których z wiadomych przyczyn nie ma jeszcze w strukturze baz danych. Oczywiście model taki nie ma nigdy stuprocentowej dokładności, ale jeśli po jej zmierzeniu wyniki są satysfakcjonujące, znaczy to, że model jest dobry i przydatny.

Kiedy stosujemy analizę predykcyjną?

Analizę predykcyjną można stosować przede wszystkim w celu automatyzacji procesu podejmowania decyzji. Dobrym przykładem jest credit scoring, czyli predykcja: czy klient o danym zestawie cech spłaci kredyt (czyli de facto decyzja, czy można mu tego kredytu udzielić), albo: czy klient niedługo dokona zakupu lub przestanie korzystać z naszych usług.

Predykcja może dotyczyć również zmiennych ciągłych, takich jak np. wartość klienta (CLTV) oraz wycena produktu lub usługi. Celem analizy jest więc zawsze podjęcie opartej o predykcję decyzji, która pozwoli dostosować się do sytuacji (np. wysłać odpowiednią komunikację marketingową lub udzielić rabatu klientom zagrożonym odejściem).

Analiza predykcyjna a wiedza z zakresu uczenia maszynowego

Analiza predykcyjna zazwyczaj opiera się o uczenie maszynowe (machine learning). Oznacza to, że algorytm podejmuje decyzję o przewidywanej wartości na podstawie wcześniejszej nauki. Model dostaje treningowy zbiór danych, który zawiera odpowiednie informacje wraz z wynikiem zmiennej celu.

Po zaznajomieniu się z tym, dla jakich konfiguracji pozostałych zmiennych przyjmowana jest dana wartość zmiennej objaśnianej, jest w stanie stwierdzić, które zmienne mają na nią istotny wpływ i w jakim stopniu. Dzięki temu po otrzymaniu zbioru danych bez określonej wartości zmiennej celu, algorytm będzie w stanie ją niejako „przewidzieć” na podstawie innych obserwacji, które były mu dostarczone w procesie uczenia.

Zrozumienie analizy predykcyjnej oraz data science w praktyce

Można to porównać do pracownika, który po przejrzeniu tysięcy wniosków kredytowych z przeszłości jest w stanie ocenić, czy przy nowym wniosku można tego kredytu udzielić. Różnica jest taka, że model może uczyć się na setkach milionów obserwacji we względnie krótkim czasie, jeśli architektura danych jest odpowiednio przystosowana.

Samych algorytmów machine learning jest wiele, a każdy z nich uczy się w inny sposób. Ciężko wybrać jeden, uniwersalny model, który mógłby zostać wytypowany jako najlepszy w każdym przypadku. Dlatego właśnie rolą data scientists jest umieć zaimplementować odpowiednie algorytmy i odpowiednio dobrać ich parametry, a następnie porównać wyniki i wybrać najlepszy w danym przypadku.

Istnieją na rynku narzędzia klasy Auto ML do automatyzacji tych procesów, potrafiące dobrać parametry modeli przy pomocy sztucznej inteligencji, jednak indywidualne podejście do tematu i dostosowanie modelu do specyfiki biznesu daje zawsze lepsze efekty, dlatego zaznajomiony z tematem data science specialist jest tak ważny w całym procesie.

Produkcyjna implementacja modeli – automatyzacja pracy w data science

Stworzenie dobrego modelu wymaga wiele pracy, na co składa się odpowiednie przygotowanie zbioru danych, sprawdzenie spełnienia wszystkich założeń, budowa wielu modeli a następnie porównanie ich i wybranie najlepszego.

Praca ta jednak nie musi być wykonywana za każdym razem, kiedy chcemy użyć modelu na nowych danych, o ile nie różnią się one znacząco od danych, na których algorytm był trenowany. Dlatego też większość poprawnie zbudowanych i dobrze funkcjonujących modeli wdraża się „na produkcję”, czyli programuje się je w taki sposób, żeby automatycznie co jakiś czas były stosowane na nowych danych pojawiających się w hurtowni.

Odpowiednio zakodowany algorytm jest w stanie nawet automatycznie raz na jakiś czas przeliczyć model, czyli po raz kolejny stworzyć wiele jego wersji i wybrać najlepszą. Może być to przydatne, ponieważ w większości biznesów zmienia się środowisko, a co za tym idzie – zmieniają się też dane. Model wytrenowany na danych wygenerowanych w innych okolicznościach nie będzie dobrze sprawdzał się na nowych danych, które mogą być zupełnie inne.

Model zaimplementowany prawidłowo powinien więc co jakiś czas być automatycznie przeliczany i dostosowywany, a także stale stosowany na świeżo generowanych danych. Oczywiście to, jak często będzie się to działo, zależy od mocy obliczeniowej, którą dysponujemy.

Jak wygląda data science w rozwiniętej analitycznie firmie?

W dojrzałej analitycznie firmie, w której data science jest rozwinięta na wysokim poziomie, na produkcję implementowanych jest wiele różnych modeli. Można stwierdzić, że „współpracują” one ze sobą, czyli wzajemnie korzystają z wygenerowanych przez siebie dodatkowych informacji.

Przykładowo segment klienta z modelu segmentacji może być cenną informacją wejściową do modelu predykcyjnego, odpowiadającego za przewidywanie wartości klienta. Niełatwą sztuką jest więc takie zaprogramowanie ich odświeżania, aby cały ten ekosystem mógł działać płynnie i poprawnie.

Z pomocą przychodzą orkiestratory

Szczególnie ważne jest to w sytuacji, kiedy zasoby mocy obliczeniowej, którą dysponujemy, są ograniczone. Dlatego też często wykorzystywane są specjalne narzędzia zwane orkiestratorami, dzięki którym można planować, kiedy serwer zacznie odpowiedni proces, począwszy od ETL, poprzez załadowanie danych do hurtowni, pobranie ich do modelu, przeliczenie, aż po zwrócenie wyników do hurtowni.

Oczywiście, wraz ze wzrostem wolumenów danych może zaistnieć konieczność powiększenia hurtowni danych lub dostarczenia większej liczby serwerów do modelowania, co można rozwiązać przenosząc całą architekturę danych do chmury, gdzie w każdym momencie możemy wynająć dodatkowe miejsce lub moc obliczeniową w miarę rosnących potrzeb.

Jak data science radzi sobie z ogromną ilością danych?

W tym miejscu należałoby też wspomnieć o tym, co można zrobić w przypadku, gdy danych jest naprawdę dużo i pojedyncze jednostki obliczeniowe nie są w stanie przetworzyć ich w zadowalającym czasie. Można tu podać za przykład analizę obrazów, dźwięków albo ogromnych zbiorów danych pochodzących np. z logów strony internetowej.

W takiej sytuacji należy użyć narzędzi klasy Big Data, które, korzystając na przykład z algorytmów map-reduce, rozdzielają zadania przeliczenia danych na wiele serwerów połączonych ze sobą i zbierają wyniki w całość. W ten sposób można przetworzyć dane wielokrotnie szybciej, a to, jak szybko będzie się to odbywało, zależy od liczby wynajętych serwerów. Dzięki rozwiązaniom klasy Big Data można używać algorytmów data science na bardzo dużych zbiorach danych.

Wykorzystanie data science w praktyce

Ostatnim etapem jest wykorzystanie dodatkowych informacji, które otrzymujemy dzięki data science. Oczywiście można samemu przeglądać wyniki analiz i wyciągać z nich odpowiednie wnioski, ale kluczem do zwinnego i szybko reagującego biznesu jest automatyzacja również tego procesu.

Tutaj rozwiązania są różne – w przypadku analizy eksploracyjnej dobrą praktyką jest na przykład wizualizacja wniosków na dashboardzie. Do tego celu mogą posłużyć specjalne programy klasy BI, czyli Business Intelligence (np. Tableau).

Dzięki temu osoby decyzyjne mają szybki i łatwo interpretowalny wniosek na wyciągnięcie ręki. Przykładem może być wykres lub tabela prezentująca w możliwie najbardziej czytelny sposób wyniki analizy koszykowej lub sekwencyjnej.

Wykorzystanie data science w biznesie

Drugą opcją jest wykorzystanie wyników modeli o charakterze decyzyjnym. Oczywiście te informacje można również wizualizować w BI, jednak prawdziwą wartość stanowi ich automatyczne wykorzystanie w biznesie.

Najczęściej polega to na przekazaniu informacji otrzymanej z modelu do odpowiedniego systemu, który tę informację we właściwy sposób wykorzysta. Przykładem może być dostarczanie informacji o segmencie klienta lub jego prawdopodobnym odejściu do systemu CRM, gdzie tworzone są zadania dla pracowników oraz dostosowywana jest automatyczna wysyłka maili.

Dzięki temu wartość wiedzy płynącej z data science zostaje automatycznie wykorzystana, a firma osiąga przewagę konkurencyjną bez angażowania zbędnych zasobów.

Jeśli chcesz poznać odpowiedzi na nurtujące Cię pytania na temat narzędzia Business Intelligence – Tableau – ten artykuł może Cię zainteresować! Jeśli natomiast chcesz poszerzyć swoją wiedzę z zakresu analizy danych – dowiedz się, w jaki sposób przygotować dane do analizy!

Dodaj komentarz

LinkedIn
Facebook