Gigabajty danych sieciowych z wypowiedziami internautów i artykułami prasowymi stają się dziś bazą m.in. dla oceny preferencji wyborczych. Analiza sympatii politycznych przy użyciu Big Data może dostarczyć bardziej precyzyjnych wyników, niż klasyczne sondaże.
Zespół badawczy kierowany przez prof. Włodzimierza Gogołka z Uniwersytetu Warszawskiego, od kilku lat stosuje tzw. rafinację danych Big Data, na podstawie której prognozuje m.in. wyniki wyborów parlamentarnych i prezydenckich.
- Wyłuskiwanie wartościowych informacji z Big Data wymaga kilku specjalistycznych narzędzi programowych. Ich działanie polega na zbieraniu wpisów - informacji z sieci (robią to roboty), wyszukiwaniu fraz zawierających określoną nazwę, np. firmy, nazwisko, które są w sąsiedztwie słów określanych jako sentyment. Na przykład "polityk Abacki jest dobrym ekonomistą". Zliczając liczby fraz z pozytywnymi i negatywnymi sentymentami (w przykładzie pozytywnym sentymentem jest +dobry+) uzyskujemy opinię o Abackim, np. 100 tys. dobrych opinii 1000 złych - wyjaśnia w rozmowie z PAP Gogołek.
Profesor z zespołem stosował metodę rafinacji dużych zbiorów danych przy okazji wyborów prezydenckich i parlamentarnych w 2011 r., dowiodła ona wtedy swojej wysokiej wiarygodności. Podobną analizę przeprowadzono także podczas finału kampanii w tegorocznych wyborach prezydenckich.
- W wyborach parlamentarnych i prezydenckich w 2011 r. wyniki zostały przewidziane bezbłędnie. W ostatnich wyborach prezydenckich wymowna jest procentowa różnica (zaledwie 0,66 proc.) pomiędzy liczbami pozytywnych sentymentów dotyczących każdego z kandydatów, zgromadzonymi przez nasze narzędzia w przeddzień wyborów prezydenckich 2015, która wynosiła 2,44 proc., a rzeczywistą różnicą jaka dzieliła Andrzeja Dudę i Bronisława Komorowskiego - 3,10 proc. - tłumaczy profesor.
Ekspert wyjaśnia, że rafinacja dużych zbiorów danych stanowi wartościową alternatywę dla ilościowych badań sondażowych, zaś dzięki automatyzacji procesów, jej koszt w porównaniu do klasycznych metod jest o wiele mniejszy.
- Klasyczne badania opierają się na analizie, najczęściej skategoryzowanych, odpowiedzi na pytania, które zadawane są określonej reprezentatywnej liczbie, setek, rzadziej tysięcy, osób. Rafinacji poddawane są natomiast miliony wpisów. Np. w ostatnich badaniach dotyczących Jana Pawła II rafinacji poddaliśmy około 5 mln wpisów. O wiarygodności badań klasycznych stanowi reprezentatywność próby np. tysiąc osób, w rafinacji wiarygodność implikują wcześniej uzyskane wyniki - mówi Gogołek.
- W stosunku do tradycyjnych badań koszty rafinacji są marginalne, szczególnie jeśli dysponuje się względnie wystandaryzowanymi narzędziami: roboty kolekcjonujące wpisy, identyfikacja sentymentów, obliczanie krotności sentymentów - dodaje profesor.
Rafinacji Big Data nie należy rozpatrywać jako badawczego eksperymentu, profesor przekonuje, że to i podobne narzędzie znajdują zastosowania komercyjne.
- Rafinacja obejmuje bardzo szerokie spektrum możliwych badań min.: monitoring marki - identyfikacja bieżących zagrożeń pozytywnego obrazu marki, możliwości zbierania sentymentów dotyczących notowań spółek giełdowych - testy wskazały nadzwyczaj dużą korelację przewidywań z rzeczywistymi notowaniami czterech spółek giełdowych (Enea SA, KGHM SA, Synthos SA i Tauron SA). Podobnie do badań marki łatwe jest, korzystając z rafinacji, monitorowanie notowań organizacji, partii i poszczególnych osób. Identyfikacja zagrożeń: przestępstwa, wady masowych produktów itp. - przekonuje Gogołek.
Rafinacji dużych zbiorów danych naucza się także na Wydziale Dziennikarstwa i Nauk Politycznych Uniwersytetu Warszawskiego, gdzie studenci wykorzystują te narzędzia m.in. do przeprowadzenia badań, których wyniki wykorzystują w pracach dyplomowych.
Jak wyjasnia profesor, rafinacja, od kilku lat, stanowi fragment jego wykładu dotyczącego nowych źródeł informacji dziennikarskich, a ponadto studenci mają dostęp do tego narzędzia, np. podczas pisania prac dyplomowych.
Badanie przeprowadzone w tym roku przez IBM Institute for Business Value wśród kadry kierowniczej globalnych przedsiębiorstw dowiodło silnej potrzeby wprowadzania różnego typu analityki danych do codziennych praktyk funkcjonowania przedsiębiorstw i organizacji. Według Hala Variana, głównego ekonomisty Google, Big Data Scientist, czyli badacz danych, będzie jednym z najbardziej pożądanych zawodów w IT w ciągu najbliższej dekady. Szacuje się, że już do 2020 roku sieć rozrośnie się do poziomu 45 zetabajtów. Do tego czasu luka na rynku pracy w USA wyniesie już ponad 1,5 mln wolnych stanowisk, czekających na obsadzenie przez specjalistów od Big Data.