Big Data - nowa era w analizie danych

Zbieranie danych i ich analiza od dawien dawna było podstawą formułowania wniosków o otaczającym nas świecie. Każde prawo znane z lekcji fizyki zanim zostało opisane, oraz opatrzone odpowiednimi wzorami przez swojego "odkrywcę" wymagało wielu prób, pomiarów, eksperymentów i obliczeń. Jednak ostatnio ten model uległ znacznemu przekształceniu. Analiza zjawisk jako serii przyczyn i skutków staje się zbyt złożona, a czasem po prostu zbyt pracochłonna. Liczba danych i skomplikowanie badanych procesów rośnie nieubłaganie, wprowadzając nas w epokę Big Data.

Jak wygląda tradycyjny model analizy danych?

Na podstawie wstępnych obserwacji formułujemy kilka hipotez - najczęściej na długo przed przeprowadzeniem odpowiednich eksperymentów i zebraniem danych - które następnie próbujemy przy pomocy analizy tych danych potwierdzić lub obalić. Każde pytanie postawione przez badacza wiąże się w tym schemacie z koniecznością zebrania odpowiedniej próbki informacji. Haczyk tkwi w słowie "odpowiedniej" - próbka powinna być reprezentatywna, aby umożliwić wyciągnięcie obiektywnych, prawdziwych wniosków. Czy jednak zawsze tak jest? Naukowcy często ulegają pokusom, aby wybrać do analizy tylko te dane, które potwierdzają ich teorie, odrzucając niewygodne informacje. Nie jest to oczywiście reguła, ale niejeden raz w historii znane są przypadki gdy po latach "naukowiec" przyznał się do świadomego przedstawiania jako sprawdzone tez, o których nieprawdziwości wiedział od początku.

"Wyjątek potwierdza regułę" - głosi powiedzenie. Jednak jeżeli przyjrzeć się łacińskiegu oryginałowi "Exceptio probat regulam" okaże się że wyjątek nie "potwierdza" reguły, lecz ją "próbuje", lub "sprawdza", a to subtelna różnica.

Danetyzacja, czyli rewolucja Big Data

Trudno opisać w jednym akapicie zmiany które zaszły w ostatnich latach. Era analogowych danych minęła bezpowrotnie. W pierwszym etapie zaczęliśmy digitalizować wszelkie dostępne informacje. Dzięki cyfryzacji analizy które wcześniej trwały miesiącami mogliśmy przeprowadzić w kilka dni. Jednak nie zmieniła się zasada, w/g której osoby zbierające dane nadal widziały tylko jeden sposób ich wykorzystania, zgodny z pierwotnymi założeniami.

To co dzieje się obecnie często jest określane słowem "danetyzacja" - oznaczającym zbieranie danych o wszystkim w koło, także takie, o których nigdy nie myśleliśmy jako o źródłach danych - dane lokalizacyjne, analiza ruchu w sieci, listy produkty z paragonów powiązanych z daną kartą lojalnościową, czy dane zbierane automatycznie z systemów miejskiego monitoringu. Posiadamy ogromne ilości informacji - zebranych, skwantyfikowanych, gotowych do analizy. Jednak jest ich tak wiele, że formułowanie hipotez i ich weryfikacja w taki sposób, jak miało to miejsce wcześniej staje się zbyt skomplikowane. Dlatego też nowe metody badawcze przekładają nacisk z poszukiwania przyczynowości na analizę korelacji.

Dotychczasowe założenie, że decyzje podejmowane są na podstawie analizy małej ilości dobrze dobranych danych dokładnie opisujących zjawiska, których przebieg jesteśmy w stanie wyjaśnić, okazuje się niewystarczające. Zbiory danych stały się ogromne, na szczęście rozwijające się wciąż technologie ich przetwarzania pozwalają na szybką i skuteczną analizę, w czym spory udział ma przetwarzania danych w chmurze. Badanie zjawisk w oparciu o wielkie ilości informacji ma niezaprzeczalny plus - unikamy błędów wynikających z nieobiektywnego wyboru próbki, a uzyskane wyniki są bardziej odporne na usterki czy manipulacje. Jednak jest także ciemna strona analizy Big Data - czasami 2*2 to 3,95 i taka dokładność musi nam wystarczyć.

Big data - dyktatura danych

Potęgę zebranej i uporządkowanej wiedzy znali już dawni władcy - przez tysiąclecia rządy starały się kontrolować obywateli zbierając o nich informacje, robiąc to przy pomocy spisów ludności (przeprowadzali je już starożytni Egipcjanie i Chińczycy). Jeszcze niedawno jednym z największych zagrożeń wydawało się naruszanie naszej prywatności, podsłuchiwanie rozmów, przechwytywanie e-maili. Obecnie w erze ustaw anty-terrorystycznych dobrowolnie zrezygnowaliśmy z wielu praw jednostki, zezwalając na gromadzenie i przetwarzanie wszelkiego rodzaju danych nas dotyczących. Powstają coraz lepsze algorytmy które potrafią przewidzieć na podstawie listy zakupów, wykonywanej aktywności, kupowanych leków (pamiętajmy że coraz częściej mamy aktywną lokalizację w telefonie, nawet jeśli tego nie chcemy, za zakupy zaś płacimy kartami powiązanymi z naszym rachunkiem bankowym) że np. ryzyko zawału dla danej osoby jest powyżej średniej. Albo że grozi nam utrata płynności finansowej, przez co możemy nie spłacać zaciągniętych kredytów.

Nie dziwi nas to, że w internecie widzimy spersonalizowane reklamy dostosowane do naszego wieku, płci, profilu zainteresowań, oraz odwiedzanych wcześniej stron. Czasem uśmiechniemy się tylko, gdy znajdziemy w skrzynce gazetkę promocyjną z ofertą mebelków do pokoju dziecięcego, chociaż jesteśmy dopiero w połowie ciąży. Jesteśmy do tego tak przyzwyczajeni, że nawet nie zawsze zadajemy sobie pytanie "Przypadek, czy... skąd oni wiedzieli?".

Ocean danych - przyjaciel, czy wróg?

Na początku dostrzegaliśmy jedynie pozytywne strony analizy predykcyjnej, jednak coraz więcej specjalistów bije na alarm, że pod względem etycznym dyktatura danych w której przyszło nam żyć jest ogromnym zagrożeniem nie tylko dla naszej prywatności, ale nawet wolności. Jeszcze tylko krok, aby prawne określenie "uzasadnionych podstaw" do podjęcia jakiegoś działania (np. prewencyjnego aresztowania, czy też przeprowadzenia rewizji) zostało zastąpione "podstawami probabilistycznymi" wynikającymi z analizy danych pochodzących z wielu różnych źródeł.

Tymczasem strumień danych które produkujemy zwiększa się każdego dnia. Google przetwarza ponad 24 petabajty danych dziennie - co wiele tysięcy razy przekracza liczbę znaków we wszystkich książkach znajdujących się w niejednej uczelnianej bibliotece. Na Facebooku co godzinę przybywa 10 milionów nowych fotografii. Zdjęcia często opatrzone są danymi lokalizacyjnymi (z czego nie zawsze zdaje sobie sprawę autor zdjęcia - wystarczy przypomnieć Twitterowe wpadki z publikacją zdjęć z frontu walki przez przebywających na urlopie żołnierzy prawie-sąsiadującego z nami mocarstwa). Wciąż rozwijana technologia analizy obrazu pozwala łatwo szukać znanych systemowi twarzy na zdjęciach z prywatnych profili, oraz wyciągać numery rejestracyjne z nagrań miejskiego monitoringu. To "kto, z kim, kiedy, i gdzie" przestało być już tajemnicą. Tylko od nas zależy, do czego wykorzystamy otaczający nasz ocean informacji. Jedno jest pewne - świat już nigdy nie będzie taki, jak dawniej.