Datová analýza

O čem datová analýza vlastně je a proč se jí zabýváme.

Datová analýza

Podívejme se krátce na to, co je datová analýza (data analytics). Definicí je spousta. Můžeme například říct, že datová analýza mění data ve znalosti. Data si můžeme představit jako dlouhé a rozsáhlé tabulky s tisíci či miliony řádků a stovkami sloupců, v nichž bychom se bez pomoci neměli šanci vyznat. Znalostí je něco, co je pro člověka mentálně uchopitelné a může to být například použito jako podklad pro rozhodnutí.

Poněkud vědečtější definici nabízí například Wikipedie: "Data analysis is a process of inspecting, cleansing, transforming and modeling data with the goal of discovering useful information, informing conclusions and supporting decision-making."

O čem je datová analýza

U výrobní firmy máme například obrovské tabulky tržeb a nákladů, které nám samy o sobě nic neřeknou. Znalostí pak může být třeba to, který produkt je nejvíce ziskový, zda by některý z produktů potřeboval větší propagaci nebo zda jej neprodáváme příliš draho. Jednoduchou datovou analýzou může být například i to, že si vezmete své výpisy z účtu a spočítáte, za jaké skupiny statků nejvíce utrácíte a na čem byste mohli ušetřit.

Do datové analýzy můžeme započítat velké množství činnost. Typickými příklady jsou:

  • získávání, transformace a čištění dat (kontrola chyb, hledání duplicitních záznamů atd.),
  • návrh datové architektury,
  • vytvoření datových skladů a Business Inteligence,
  • interpretace výsledků a vizualizace dat,
  • tradiční výzkum s použitím statistických metod.

Různé zdroje se shodují, že nejvíce času je věnování právě získávání a čištění dat. Je to i klíčový bod, protože s chybnými nebo špatně upravenými daty zpravidla dojdeme ke špatným závěrům. Zpravidla máme data z více zdrojů, pak je nutné data správně propojit (např. osoby bychom neměli propojovat podle jména a příjmení, protože v datech můžeme mít více osob se stejným jménem a příjmením).

Strojové učení

Součástí zpracování je i strojové učení (machine learning), což si můžeme představit jako používání různých algoritmů k hledání společných trendů a závislostí mezi daty a vytváření predikcí. Často je to označování jako datová věda (machine learning).

Strojové učení má spoustu různých aplikací. Služby jako Netflix nebo Youtube mají spoustu dat o tom, jaká videa uživatel sledoval, a úkolem datové vědy je nabízet uživatelům obsah, který je zaujme. U kybernetické bezpečnosti máme spoustu dat o tom, jaká data putují sítí, a úkolem je rozpoznat podezřelý provoz, který může být způsoben nějakým kybernetickým útokem.

Proč se datovou analýzou zabýváme

V současné době zažívá datová analýza a strojové učení velký rozmach. To má několik předpokladů:

  • obrovské množství dat, ve kterých je velký potenciál,
  • dostatečná výpočetní kapacita,
  • algoritmy a software ke zpracování dat.

Kromě Pythonu se pro zpracování dat používá jazyk R. Výhodou Pythonu je, že jde o obecný jazyk, se kterým můžeme provádět spoustu dalších věcí, R je jazyk zaměřený pouze na zpracování dat.

Pro Python existuje obrovské množství nástrojů, které pro analýzu dat můžeme použít. My si ukážeme moduly pandas a matplotlib.