
Termin veliki podaci (Big Data) se primenjuje od sredine 1990. godine, a intenzivnija primena se javlja od 2008. godine. Veliki podaci se vezuju za velike količine nestruktuiranih podataka, njihovu obradu i dobijanje novih kvalitetnih informacija za koje se nije moglo pretpostaviti da postoje.
Po svojoj suštini spadaju u područje veštačke inteligencije i oblast mašinskog učenja. Prema jednoj od mnogih definicija, velikim podacima nije moguće upravljati, niti ih analizirati standardnim alatima i tehnikama strukturiranih podataka. Ovakva definicija se čini korektnom s obzirom na to da živimo u vreme digitalizacije.
Koliko ima podataka na svetu? Na ovo pitanje je Martin Hilbert 2007. godine dao odgovor istražujući podatke koji se nalaze u knjigama, slikama, imejlovima, redovnoj pošti, fotografijama, muzici, video-materijalima, igricama, telefonskim razgovorima, auto-navigacijskim sistemima, TV i radio emisijama…) i ustanovio da je te godine postojalo 309*1018 (eksabajta) pohranjenih podataka (Hilbert, Lopez, 2012). Slikovito prikazano, da su svi ti podaci štampani u knjigama, prekrili bi Severnu Ameriku 52 puta, a da su na CD-u, od njih bi se moglo podići 5 stubova od Zemlje do Meseca. Sve informacije koje nastaju u današnje vreme udvostruče se svake 3 godine. Tako je, na primer, 2000. godine od svih zabeleženih informacija na svetu, 25% bilo u digitalnom obliku, a 75% u analognom (na papiru, filmu, LP pločama, magnetnim trakama…). U 2007. godini, taj odnos se bitno menja, pa je samo 7% zabeleženih informacija bilo analogno, a 93% digitalno.
U današnje vreme se prikupljaju velike količine strukturiranih i nestrukturiranih podataka. Tako, na primer, kompanija Google dnevno obradi 24*1015 bajta (petabajta) informacija. Facebook dnevno prikupi 3 milijarde (109) likeova i/ili komentara, a svakog sata preuzme oko 10 miliona slika (106), dok na YouTubeu, svake sekunde 800 miliona korisnika pohrani video-materijala trajanja od preko sat vremena.
Svaki skup podataka se smatra velikim podacima ako poseduje tri karakteristike, popularno nazvane 3V, prema početnim slovima engleskog jezika – volume, variety, velocity. Volume se odnosi na veliku količinu podataka. Variety, velika raznovrsnost podataka, odnosi se na različite tipove podataka (uključujući tradicionalne baze podataka), fotografije, dokumente i složene zapise. Velocity, velika brzina prikupljanja podataka, odnosi se na brzinu kojom se akumuliraju novi podaci iz sličnih izvora podataka, iz prethodno arhiviranih podataka ili nasleđenih zbirki i iz prenesenih podataka koji se prikupljaju iz različitih izvora. Postojanje ovih triju vrednosti zahteva nove metode za oblikovanje, rukovanje i analiziranje velikih podataka. Danas se uključuje i četvrto V, koje pretpostavlja kako podaci sami po sebi poseduju određenu vrednost (value). Takođe se kao karakteristika velikih podataka ističe i veracity – istinitost, što podrazumeva kvalitet prikupljenih podataka, complexity – složenost, vagueness – neodređenost ili neizvesnost, koja se povezuje uz rezultate analize.
Veliki podaci su doveli do suštinske promene u njihovom definisanju, a oni su prouzrokovali menjanje svesti ljudi, dodatne, nove dimenzije razumevanja i promene u organizaciji društva. Definisanje velikih podataka uslovile su bar tri velike promene u drugačijem razumevanju podataka. Prva promena se odnosi na veliku raznovrsnost i količinu podataka, druga na odricanje od tačnosti u zamenu za širu sliku, a treća na potrebu da se uzročnost zameni korelacijom.
S obzirom na to da je nemoguće istražiti sve postojeće podatke, matematičari su uveli izbor uzoraka na osnovu kojih se može zaključivati o celini posmatranih podataka. U početku, uzorci su uzimani s analognih, a kasnije od digitalnih podataka. Način na koji se uzimaju uzorci je od presudne važnosti. Pokazalo se da slučajno uzeti uzorci mnogo bolje reprezentuju celinu od posebno izabranih. Na taj način, dodavanje novih podataka skupu postojećih velikih podataka ne menja procenu dobijenu slučajnim uzorkovanjem.
Druga promena koju uzrokuju veliki podaci je prihvatanje trendova na račun tačnosti. Zaista je u mnogim procenama bitno da se shvati čemu se teži od principa da se tačno odrede kategorije i detalji. Navedena promena je bila neophodna jer se veliki podaci dobijaju iz različitih izvora u različitim formama i oblicima. U takvom okruženju, mnogo je jednostavnije dobiti procenu nego tačnost. Primer ovoga je dobro poznati Murov zakon, koji govori da se svake tri godine broj tranzistora na čipu učetvorostruči, što nesumnjivo govori o povećanju kapaciteta memorije i o brzini obrade. Dakle, velike količine podataka dovode do manje preciznosti i nestrukturiranosti, ali zato nedvosmisleno ukazuju na trendove, šire slike stvarnosti, koji se jednostavnije mogu projektovati na neku blisku ili dalju budućnost.
Treća velika promena koju su veliki podaci doneli je traženje korelacije među podacima umesto uzročnosti. Ovakav pristup umnogome pomaže da se shvati činjenica da se dešava nešto što može upozoriti odgovarajuće subjekte s ciljem preduzimanja adekvatnih mera za poboljšanje takvog stanja, ili pak ako se radi o negativnim dešavanjima, da se to suzbije ili iskoreni. Na primer, istraživanjem velikih količina podataka, ustanovljeno je da niži socijalno-ekonomski status ljudi dovodi češće do bavljenja kriminalom. Dakle, u ovom slučaju je zaključeno da postoji korelacija između niskog socijalnog i ekonomskog statusa ljudi, koji uzrokuje bavljenje kriminalom. Ovakvi zaključci se daju u procentima, pa odgovarajuće društveno-političke organizacije mogu pristupiti različitim akcijama na suzbijanju takvog stanja.
Veliki podaci odnose se na stvari koje mogu dovesti do određenih zaključaka zbog velike količine podataka, a do kojih se ne bi moglo doći da je ta skala manja. Pomoću tih uvida stvaraju se nove vrednosti koje menjaju tržišta, organizacije, odnose među građanima i vladama, ukratko, menjaju način na koji živimo i radimo.
Transformacija gotovo svih aspekata ljudskog života u podatke i informacije je karakteristika sadašnjice. Međutim, svest o velikim podacima u budućnosti će rasti, a pretpostavka da postoji merljiva komponenta u gotovo svemu što činimo, te da su dobijeni podaci ogromni izvor znanja, značajno će uticati na našu sliku stvarnosti. Iz navedenih razloga, okretanje velikim podacima kao oblasti informacionih tehnologija je veoma bitno kako bi inženjeri informacionih tehnologija bili u trendu.