Deskriptivna statistika

Nema pregledanih verzija ove stranice, što znači da možda nije provjereno odgovara li standardima projekta.

Deskriptivna statistika je zbirna statistika koja kvantitativno opisuje ili sumira karakteristike iz zbirke informacija.[1] Deskriptivna statistika se razlikuje od inferencijalne statistike po svom cilju da sumira uzorak, umjesto da koristi podatke za učenje o populaciji za koju se smatra da uzorak podataka predstavlja.[2] Ovo općenito znači da deskriptivna statistika, za razliku od inferencijalne statistike, nije razvijena na osnovu teorije vjerovatnoće i da je često neparametarska statistika.[3] Čak i kada analiza podataka donosi svoje glavne zaključke koristeći inferencijalnu statistiku, deskriptivna statistika se općenito također prikazuje.[4] Na primjer, u radovima u kojima su subjekti ljudi, obično je uključena tabela koja daje ukupnu veličinu uzorka, veličinu uzorka u važnim podgrupama (npr. za svaki tretman ili grupu izloženosti) i demografske ili kliničke karakteristike kao što su prosječna starost, udio ispitanika svakog spola, udio subjekata sa povezanim komorbiditetima, itd.

Neke mjere koje se obično koriste za opisivanje skupa podataka su mjere centralne tendencije i mjere varijabilnosti ili disperzije. Mjere centralne tendencije uključuju srednju vrijednost, medijan i mod, dok mjere varijabilnosti uključuju standardnu devijaciju (ili varijansu), minimalne i maksimalne vrijednosti varijabli, mjere zaobljenosti i mjere asimetrije.[5]

Upotreba u statističkoj analizi

uredi

Deskriptivna statistika pruža jednostavne sažetke o uzorku i zapažanjima koja su napravljena. Takvi rezimei mogu biti ili kvantitativni, odnosno zbirni statistički podaci, ili vizuelni, odnosno grafikoni koji su jednostavni za razumijevanje. Ovi sažeci mogu ili činiti osnovu za početni opis podataka kao dio opsežnije statističke analize, ili mogu sami po sebi biti dovoljni za određeno istraživanje.

Na primjer, postotak šuta u košarci je deskriptivna statistika koja sumira učinak igrača ili tima. Ovaj broj je broj pogođenih šuteva podijeljen sa brojem ukupnih šuteva. Na primjer, igrač koji šutira 33% pogodi otprilike jedan šut od svaka tri. Postotak sažima ili opisuje više diskretnih događaja.[6]

Upotreba deskriptivne i zbirne statistike ima opsežnu historiju. Tabelarno prikazivanje stanovništva i ekonomskih podataka bio je prvi način na koji se pojavila tema statistike. Nedavno je formulisana kolekcija tehnike koje sumiraju podatke pod naslovom istraživačke analize podataka: primjer takve tehnike je box plot .

U poslovnom svijetu, deskriptivna statistika pruža koristan sažetak mnogih vrsta podataka. Na primjer, investitori i brokeri mogu koristiti historijski izvještaj o ponašanju prinosa tako što će obavljati empirijske i analitičke analize svojih ulaganja kako bi donijeli bolje odluke o ulaganju u budućnosti.

Univarijantna analiza

uredi

Univarijantna analiza uključuje opisivanje distribucije jedne varijable, uključujući njenu centralnu tendenciju (uključujući srednju vrijednost, medijan i mod) i disperziju (uključujući raspon i kvartile skupa podataka, te mjere širenja kao što su varijansa i standardna devijacija). Oblik distribucije se također može opisati pomoću indeksa kao što su asimetrija i zaobljenost. Karakteristike distribucije varijable također mogu biti prikazane u grafičkom ili tabelarnom formatu, uključujući histograme i prikaz stabljike i lista.

Bivarijantna i multivarijantna analiza

uredi

Kada se uzorak sastoji od više od jedne varijable, deskriptivna statistika se može koristiti za opisivanje odnosa između parova varijabli. U ovom slučaju deskriptivna statistika uključuje:

  • Unakrsne tabele i tabele nepredviđenih situacija
  • Grafičko predstavljanje putem dijagrama raspršenosti
  • Kvantitativne mjere zavisnosti
  • Opise uslovnih distribucija

Glavni razlog za razlikovanje univarijantne i bivarijatne analize je taj što bivarijantna analiza nije samo jednostavna deskriptivna analiza, već opisuje i odnos između dvije različite varijable.[7] Kvantitativne mjere zavisnosti uključuju korelaciju (kao što je Pearsonov r kada su obje varijable kontinuirane, ili Spearmanov rho ako jedna ili obje nisu) i kovarijansu (koja odražava varijable skale na kojima se mjere). Nagib, u regresionoj analizi, također odražava odnos između varijabli. Nestandardizirani nagib ukazuje na jediničnu promjenu u kriterijskoj varijabli za jednu jediničnu promjenu u prediktoru. Standardizirani nagib označava ovu promjenu u standardiziranim (z-score) jedinicama. Veoma iskrivljeni podaci se često transformišu uzimanjem logaritama. Upotreba logaritama čini grafove simetričnijim i sličnijim normalnoj distribuciji, što ih čini lakšim za intuitivno tumačenje.[8]

Reference

uredi
  1. ^ Mann, Prem S. (1995). Introductory Statistics (2nd izd.). Wiley. ISBN 0-471-31009-3.
  2. ^ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, str. 145–183, 2017, ISBN 978-1-5063-0416-8, pristupljeno 1. 6. 2021
  3. ^ Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4.
  4. ^ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, str. 145–183, 2017, ISBN 978-1-5063-0416-8, pristupljeno 1. 6. 2021
  5. ^ Investopedia, Descriptive Statistics Terms
  6. ^ Trochim, William M. K. (2006). "Descriptive statistics". Research Methods Knowledge Base. Pristupljeno 14. 3. 2011.
  7. ^ Babbie, Earl R. (2009). The Practice of Social Research (12th izd.). Wadsworth. str. 436–440. ISBN 978-0-495-59841-1.
  8. ^ Nick, Todd G. (2007). "Descriptive Statistics". Topics in Biostatistics. Methods in Molecular Biology. 404. New York: Springer. str. 33–52. doi:10.1007/978-1-59745-530-5_3. ISBN 978-1-58829-531-6. PMID 18450044.

Vanjski linkovi

uredi