
Distribucija ili raspodela podataka predstavlja jedan od osnovnih pojmova verovatnoće i statistike, a matematička statistika je oblast koja je pronašla svoje mesto u svim nivoima poslovanja. Bez znanja statistike gotovo je nemoguće govoriti o dobrom poslovnom modelu, poslovnim procesima, evaluaciji informacija ili upravljanju. Tako, dakle, dolazimo do toga da je poznavanje distribucije podataka esencijalni element za upravljanje bilo kakvim procesom.
Distribucija u verovatnoći je matematička funkcija koja omogućava verovatnoću pojavljivanja mogućih različitih događaja u eksperimentu. Drugim rečima, to je opis slučajnih fenomena u smislu verovatnoće događaja. Osnovna podela je na diskretnu i neprekidnu distribuciju verovatnoće.
Podaci se prikazuju preko oblika koji prati njihovu distribuciju. Tumačenje oblika podataka je osnovno polazište svake statističke analize. Neki od najčešćih oblika koji se pojavljuju u podacima jesu „bell shaped”, „triangular”, „uniform”, „reverse”, „skewed”, „bimodal”, „multimodal”.
Počećemo sa najjednostavnijim oblikom distribucije, a to je distribucija frekvencija i relativnih frekvencija u kvalitativnim podacima, a prikazana je tabelom vrednosti opservacija i brojem njihovog pojavljivanja. Način prikazivanja ove frekvencije uglavnom je preko dobro poznatih grafikona: histograma, pie charta, line charta i stem and leaf dijagrama.
Nešto ozbiljniji nivo razmatranja distribucije zauzimaju kvantitativni podaci, koji se dele na podatke diskretnog i neprekidnog tipa.
Diskretna distribucija opisuje verovatnoće mogućih vrednosti diskretnih slučajnih veličina. Neprekidna distribucija opisuje verovatnoće mogućih vrednosti neprekidnih slučajnih veličina.
Osnovni diskretni oblik distribucije slučajne promenljive naziva se Bernulijeva distribucija, a njeno uopštenje za velike n vrednosti daje binomna distribucija. Binomna distribucija je distribucija verovatnoće koja broji uspehe u sekvencama Bernulijevih pokušaja.
Ostale distribucije diskretnog tipa koje se najčešće koriste jesu hipergeometrijska, geometrijska i Poasonova.
Kod neprekidnih distribucija osnovnu ulogu zauzima čuvena normalna distribucija. Ona zauzima oblik Gausove krive ili zvona, a odlikuje se parametrima „mean” i „standard deviation”. Glavna karakteristika ove distribucije jeste da se putem centralne granične teoreme sve druge distribucije aproksimiraju njome. Najzastupljenija je u korišćenju kod velikih baza podataka, centralizuje podatke i ograničava devijacu podataka.
Sledeća distribucija koja je zastupljena u okviru neprekidnih podataka jeste Studentova t-distribucija. To je distribucija u kojoj su podaci normalno raspodeljeni, ali je uzorak mali, a populaciona standardna devijacija je nepoznata. Podaci su pretežno raspodeljeni u repovima, za razliku od tipične normalne distribucije, gde su raspodeljeni centralizovano oko aritmetičke sredine.
Chi squared distribucija takođe je varijanta normalne distribucije, odnosno, to je suma kvadrata k nezavisnih standardnih normalnih slučajnih promenljivih. Najčešće se podaci koji su tako raspodeljeni predstvljaju tabelama kontigencije.
Ostale distribucije ovog tipa su uniformna, eksponencijalna, Laplasian, beta, Box-Cox, Pareto, Cauchy, logistic, Fisher, gamma, Weibull, hiperbolyc itd.
Sve distribucije imaju važnu ulogu u analizi statističkog zaključivanja i testiranjima hipoteza. Pored toga, dobro tumačenje raspodele služi pravilnoj prediktivnoj i preskriptivnoj analitici. Konverzija raspodela u normalnu takođe je od ključne važnosti s obzirom na to da mnogi modeli kao pretpostavku imaju normalnost raspodele.
Može se reći da je analiza raspodela neophodan korak u svim vrstama statističkih analiza kako nad velikim, tako i nad malim podacima.