Koeficijent korelacije

Korelacija (lat. con = sa, relatio = odnos) je međuodnos ili međusobna povezanost između različitih pojava predstavljenih vrijednostima dvaju varijabli. Pri tome povezanost znači da je vrijednost jedne varijable moguće s određenom vjerojatnošću predvidjeti na osnovi saznanja o vrijednosti druge. Školski primjeri povezanosti su naprimjer saznanje o uticaju količine saliniteta na brojnost nekih vrsta riba ili školjki ili o povezanosti slane hrane i visokog krvnog pritiska i sl.

Nekoliko skupova (xy) tačaka, sa Pearsonovim koeficijentom korelacije sa x i y za svaki skup.
Korelacija odražava snagu i smjer linearne veze (gornji red), ali ne i nagib te veze (sredina), niti mnoge aspekte nelinearnih odnosa (dno).
Napomena: lik u centru ima nagib 0, ali u tom slučaju koeficijent korelacije nije definiran jer varijansa Y iznosi nula.

Promjena vrijednosti jedne varijable utiče na promjene druge varijable. Varijabla koja svojom vrijednošću utiče na drugu naziva se neovisna varijabla. Varijabla na koju ona utiče naziva se ovisna varijabla. Naprimjer, unošenje više soli u organizam utiče na porast krvnog pritiska, dok porast krvnog pritiska ne utiče na povećanje unošenja soli u organizam. U ovom primjeru unos soli je neovisna, a povećanje krvnog pritiska je ovisna varijabla. Mogući su slučajevi da dvije varijable istovremeno utiču jedna na drugu, pa su u tom slučaju obje varijable istovremeno i ovisne i neovisne.[1][2][3]

Definicija

uredi

Najpoznatija mjera ovisnosti između dvije veličine je Pearsonov koeficijent korelacije proizvoda i tačaka (PPMCC), ili Pearsonov koeficijent korelacije, koji se obično naziva jednostavno koeficijent korelacije. Matematički je definiran kao kvalitet najmanjih kvadrata koji odgovaraju izvornim podacima. Dobija se uzimajući omjer kovarijancije dviju varijabli o kojima je riječ u datom numeričkom skupu podataka, normaliziran na kvadratni korijen njihove varijance. Matematički se jednostavno dijeli kovarijacija dviju varijabli sa umnoškom njihove standardne devijacije. Karl Pearson razvio je koeficijent iz slične, ali malo drugačije ideje Francisa Galtona.[4]

Pearsonov koeficijent korelacije proizvoda i trenutka pokušava uspostaviti liniju koja najbolje prolazi kroz skup podataka od dvije varijable, u osnovi postavljajući očekivane vrijednosti, a rezultirajući Pearsonov koeficijent korelacije pokazuje koliko je stvarni skup podataka udaljen od očekivanih vrijednosti. Ovisno o predznaku datog Pearsonovog koeficijenta korelacije, može se naći negativna ili pozitivna korelacija, ako postoji bilo kakva veza između varijabli posmatranih skupova podataka.

Koeficijent korelacije populacije   između dvije slučajne varijable   i   sa očekivanom vrijednostima   i   i standardnom devijacijom   i   definirana je kao:

 

gdje je   očekivana vrijednost operatora,   srednje kovarijanse, a   je široko korištena alternativna notacija koeficijenta korelacije. Pearsonova korelacija je definirana samo ako su obje standardne devijacije konačne i pozitivne. Alternativna formula čisto u smislu trenutaka je:

 

je široko korištena alternativna notacija koeficijenta korelacije. Pearsonova korelacija je definirana samo ako su obje standardne devijacije konačne i pozitivne. Alternativna formula čisto u smislu trenuci je:  . To se potvrđuje komutativnim svojstvom množenja.

Korelacija i neovisnost

uredi

Posljedica je Cauchyja-Schwarzova nejednakost da apsolutna vrijednost Pearsonovog koeficijenta korelacije nije veća od 1. Stoga se vrijednost koeficijenta korelacije kreće između –1 i +1. Koeficijent korelacije je +1 u slučaju savršene direktne (rastuće) linearne veze (korelacije), –1 u slučaju savršene inverzne (opadajuće) linearne veze (antikorelacija),[5] i neka vrijednost u otvorenom intervalu  u svim ostalim slučajevima, ukazujući na stupanj linearne ovisnosti između varijabli. Kako se približava nuli, manje je odnosa (bliži nekoreliranim). Što je koeficijent bliži ili −1 ili +1, to je jača korelacija između varijabli.

Ako su varijable neovisne, Pearsonov koeficijent korelacije je 0, ali obrnuto nije tačno, jer koeficijent korelacije otkriva samo linearne zavisnosti između dvije varijable.

 

Naprimjer, pretpostavimo da je slučajna varijabla   simetrično raspoređena oko nule, a i  . Tada je   u potpunosti određen  , tako da   i   savršeno ovise, ali njihova korelacija je nula ; oni su nepovezani. Međutim, u posebnom slučaju kada su   i   zajednički normalna, neusklađenost je ekvivalentna neovisnosti.

Iako nekorelirani podaci ne podrazumijevaju nužno neovisnost, može se provjeriti jesu li slučajne varijable neovisne ako je njihova međusobna informacija 0.

Koeficijent korelacije uzorka

uredi

S obzirom na niz  mjeri par   indeksiran sa  , koeficijent korelacije uzorka može se koristiti za procjenu Pearsonove korelacije populacije   između   i  . Koeficijent korelacije uzorka definiran je kao:

 

gdje su   i   prosjeci uzoraka   i  , a   i   su korigirane standardne devijacije   i  .

Ekvivalentni izrazi za   su

 

gdje su   and   nekorigirane standardne devijacije uzoraka   i  .

Ako su   i   rezultati mjerenja koja sadrže grešku mjerenja, realna ograničenja koeficijenta korelacije nisu od -1 do +1, ali su u manjem rasponu.[6] Za slučaj linearnog modela s jednom neovisnom varijablom, koeficijent determinacije (R kvadrat) je kvadrat  , Pearsonovog koeficijenta proizvod-moment.

Primjer

uredi

Razmotrimo zajedničku raspodjelu vjerovatnoće   i   dane u donjoj tabeli.Example== Consider the joint probability distribution of   and   given in the table below.

       
       
       

Za ovu zajedničku distribuciju, marginalne raspodjele su:

 
 

Ovo daje sljedeća očekivanja i odstupanja:

 
 
 
 

Stoga:

 

Odnos između varijabli

uredi

Međuodnos između dvije varijable, može se grafički prikazati pomoću dvodimenzijskog grafikona, tzv. dijagrama raspršenja. Vrijednosti jedne varijable prikazane su na x osi, a druge na y osi dijagrama. Tačke presjeka kreću se oko određenog pravca koji se naziva linija regresije. Što su tačke bliže pravcu, korelacija je veća, a što su raspršenije korelacija je manja. Osim u slučaju „savršene“ korelacije, u praksi je vizuelno vrlo teško odrediti stepen povezanosti između varijabli. Ovisno o međusobnom odnosu dviju varijabli među kojima postoji korelacija, ona može biti linearna ili nelinearna. Kod linearne korelacije, tačke su grupirane oko pravca. Kod nelinearne korelacije, one su grupirane oko neke druge krive.

Dvije promatrane varijable s ciljem utvrđivanja njihove korelacijske povezanosti mogu imati četiri različite relacije:

  1. Pozitivna korelacija je onda kada mala vrijednost jedne varijable odgovara maloj vrijednosti druge, kao i kada velika vrijednost jedne varijable odgovara velikoj vrijednosti druge.
  2. Negativna korelacija javlja se kada mala vrijednost jedne varijable odgovara velikoj vrijednosti druge i obratno.
  3. Nemonotonu korelaciju onbilježava pojava da vrijednost jedne varijable u nekim intervalima odgovara maloj vrijednosti druge varijable, a u drugim intervalima velikoj vrijednosti. Ako se korelacija više nego jednom mijenja od pozitivne prema negativnoj, takva korelacija naziva se ciklična korelacija.
  4. Korelacija ne postoji u primjerima kada se na osnovu vrijednosti jedne varijable ne može ništa zaključiti niti pretpostaviti o vrijednosti druge varijable, tada. U takvom grafikonu, tačke su raspršene.

Koeficijenti korelacije

uredi

Koeficijenti korelacije izražavaju mjeru povezanosti između dvije varijable u jedinicama koje su nezavisne o konkretnim jedinicama mjere u kojima su iskazane vrijednosti varijabli. Postoji više koeficijenata korelacije koji se koriste u različitim slučajevima. Prilikom analize linearnih modela, u praksi se najčešće koristi Pearsonov koeficijent korelacije. U modelima koji nisu linearni, najčešće se koristi Spearmanov koeficijent korelacije.

Pearsonov koeficijent korelacije

uredi
 
Primjer raspršenih dijagrama različitih skupova podataka s različitim koeficijentima korelacije

Pearsonov koeficijent korelacije koristi se u slučajevima kada između varijabli datog modela postoji linearna povezanost i neprekidna normalna distribucija. Vrijednost Pearsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija) do –1 (savršena negativna korelacija). Predznak koeficijenta upućuje na smjer korelacije: da li je pozitivna ili negativna, ali nas upućuje i na snagu korelacije. Pearsonov koeficijent korelacije bazira se na usporedbi stvarnog međuuticaja promatranih varijabli, u odnosu na maksimalni mogući uticaj dviju varijabli. Označava se malim slovom r. Za izračun koeficijenta korelacije potrebna su tri različite sume kvadrata (SS): suma kvadrata varijable X, suma kvadrata varijable Y i suma umnožaka varijabli X i Y.

Suma kvadrata varijable X jednaka je zbitru kvadrata odstupanja vrijednosti varijable X od njezine prosječne vrijednosti:

 

Prosječna vrijednost varijable X jednaka je:

 

Zbir kvadrata varijable Y jednak je sumi kvadrata odstupanja vrijednosti varijable Y od njene prosječne vrijednosti:

 

Prosječna vrijednost varijable Y jednaka je:

 

Zbir umnožaka varijabli X i Y jednaka je sumi umnožaka odstupanja vrijednosti varijabli X i Y od njihovih prosjeka:

 

Koeficijent korelacije jednak je omjeru:

 

U slučaju da među varijablama ne postoji linearna povezanost, može se izvesti odgovarajuća transformacija kojom se vrijednosti varijabli modela svode na linearne.

Spearmanov koeficijent korelacije

uredi

Spearmanov koeficijent korelacije (korelacija rangova) koristi se za mjerenje povezanosti među varijablama u slučajevima kada nije moguće primjeniti Pearsonov koeficijent korelacije. Temelji se na mjeri dosljednosti povezanosti između poređenih varijabli, a oblik povezanosti (npr. linearni oblik koji je preduvjet za korištenje Pearsonovog koeficijenta) nije bitan. Slučajevi u kojima se koristi Spearmanov koficijent su npr. kada među varijablama ne postoji linearna veza, a nije moguće primijeniti odgovarajuću transformaciju kojom bi se povezanost prevela u linearnu (npr. veza između seizmičkog atributa i bušotinskog podataka u naftnoj geologiji). Spearmanov koeficijent korelacije kao rezultat daje približnu vrijednost koeficijenta korelacije koji se smatra njegovom dovoljno dobrom približnom vrijednošću. Prilikom analize Spearmanovog koeficijenta, vrijednosti varijabli potrebno je rangirati i na takav način svesti na zajedničku mjeru. Najjednostavniji način rangiranja je da se najmanjoj vrijednosti svake varijable pridijeli rang 1, sljedećoj po veličini rang 2 i tako sve do posljednje kojoj se pridjeljuje maksimalan rang. Izračunavanje koeficijenta radi se korištenjem vrijednosti pridijeljenih rangova. Spearmanov koeficijent označavaju se kao   ili  ,

Formula za izračun Spearmanovog koeficijenta korelacije je:

 

gdje je d razlika vrijednosti rangova dvije promatrane varijable, a n je broj različitih serija.

Matrica korelacije

uredi

Ponekad u istraživanju nije dovoljna samo informacija o korelaciji dvije date varijable, već i način na koji više varijabli međusobno utiče jedna na drugu. Nakon što se promatranjem međuodnosa svih parova dviju varijabli utvrdi njihova međusobna relacija, kreira se matrica korelacije. Redovi i stupci (kolone) matrice predstavljaju promatrane varijable, a podatak na presjeku određenog reda i stupca predstavlja koeficijent korelacije između varijabli u odgovarajućem redu i koloni. Matrica na dijagonali ima podatak 1 (pošto je svaka varijabla sama sa sobom u potpunoj korelaciji). Dobijena matrica je simetrična – podaci iznad i ispod dijagonale za isti par varijabli su identični. Zbog tih svojstava matrica je redundantna i dovoljno je promatrati jedan njen dio, iznad dijagonale ili ispod dijagonale. Vizuelno se može utvrditi u kojoj mjeri su dvije pojedinačne varijable u korelaciji, koje u međusobnom odnosu imaju najveći ili najmanji koeficijent korelacije, te koji skupovi varijabli se ističu sličnim koeficijentima. Vizuelno se ne može utvrditi na koji način i u kolikoj mjeri više varijabli zajednički utiču na drugu pojedinačnu varijablu.

Višestruka korelacija

uredi

Višestruka ili multipla korelacija je analitička procedura kojom se utvrđuje na koji način više neovisnih varijabli utiče na jednu ovisnu varijablu. Koeficijent višestruke korelacije označava se velikim slovom R. Za računanje koeficijenta višestruke korelacije potrebno je prvo izračunati koeficijente korelacije između svakog para posmatranih varijabli . Odnos koeficijenata korelacije varijabli može se prikazati matricom korelacije. Dobijene koeficijente potrebno je uvrstiti u formulu za izračun višestruke korelacije. Podaci višestruke korelacije kod koje se posmatra međusobni uticaj tri varijable može se prikazati trodimenzijskim dijagramom raspršenja (akater dijagram).

Formula za izračun višestruke korelacije kada promatramo utjecaj dvije neovisne varijable na treću, ovisnu, je:

 

Neovisne varijable označavaju se sa X1 i X2, a ovisna varijabla označena je sa Y. Koeficijent višestruke korelacije može imati vrijednosti od 0 do +1, a u njegovoj interpretaciji primjenjuju se ista pravila kao kod interpretiranja koeficijenta jednostavne korelacije. Kako bi izračun višestruke korelacije bio što precizniji, potrebno je koristiti veći uzorak s više vrijednosti varijabli nego u slučaju izračuna koeficijenata kod jednostavne korelacije.

Računanje korelacije

uredi

Prilikom utvrđivanja korelacije dvaju varijabli, vrlo je važan ispravan izbor varijabli koje se promatraju. Vrijednosti varijabli bi trebale biti izabrane iz slučajnoga skupa. Što je veći broj varijabli koje se promatraju, to će rezultati biti precizniji. Povećanje broja promatranih vrijednosti varijabli može u velikoj mjeri promijeniti rezultate izračuna.

Outlieri

uredi

Prilikom računanja korelacije varijabli, potrebno je obratiti pažnju na tzv. outliere. To su vrijednosti varijabli koje u velikoj mjeri odstupaju od ostalih. Zbog načina računanja linije regresije, usamljeni outlieri mogu u velikoj mjeri promijeniti rezultate. Stoga je potrebno prilikom izračunavanja korelacije donijeti odluku o tome da li je možda korisnije takve outliere isključiti i njihove vrijednosti ne koristiti prilikom izračunavanja korelacije. U tom slučaju outliere tretiramo kao greške koje se događaju prilikom određivanja uzorka. Outliere je najlakše uočiti promatrajući scatter dijagram i tražeći vrijednosti varijabli koje neuobičajeno odstupaju od linije regresije. Odluka o pronalaženju i uklanjanju outliera se s dosta velikom sigurnošću može donijeti kada je velik uzorak, a broj outliera je vrlo mali. U slučaju malog uzorka ne možemo biti sigurni da li se radi o outlierima, ili su te vrijednosti dio regularnog skupa podataka.

U određenim slučajevima za pronalaženje i uklanjanje outliera koriste se odgovarajuće kvantitativne metode (npr. uklanjanje svih uzoraka koji odstupaju više od ±2 standardne devijacije od prosjeka grupe). Takvo drastično čišćenje podataka u nekim područjima istraživanjaje je nužno kako bi se dobili ispravni podaci. Za pronalaženje i uklanjanje outliera ne postoje opće prihvaćene metode i pravila tako da je to u potpunosti subjektivno i ovisi isključivo o odluci istraživača u određenoj situaciji.

Primjena korelacije

uredi

Rezultati korelacije imaju brojne praktičke primjene, ali se ni u kojem slučaju ne bi smjeli samo na osnovi rezultata utvrđene korelacije donositi zaključci o uzročno-poljedičnoj vezi. Korelacija se ne bi trebala koristiti za donošenje zaključaka o uzročno-posljedičnoj vezi između dvije varijable pošto je velika vjerojatnost da će zaključak biti kriv. Čest slučaj je da se promatra odnos između dvije varijable koje su u korelaciji visokog stupnja. Međutim, postoji i skrivena treća varijabla koju bi također trebalo staviti u odnos s promatrane dvije, kako bi se ispravno protumačio uzročno-posljedični odnos.

Jedan od klasičnih, u literaturi često spominjanih primjera, je pojava uočena u Kopenhagenu nekoliko godina poslije završetka Drugog svjetskog rata. Uočena je korelacija između povećanja broja novorođene djece i broja roda koje su se gnijezdile u gradu. Ako bi se korelacija bez razmišljanja protumačila kao kauzalni odnos, moglo bi se zaključiti da rode donose djecu. Pravi uzrok leži u tome što se po završetku rata velik dio stanovništva sa sela preselio u grad, što je uzrokovalo povećanje broja stanovnika u gradu, a samim tim i povećanje broja novorođene djece. Istovremeno, za nove stanovnike grada izgradile su se nove kuće, tako da su i rode dobile veći broj dimnjaka za svoja gnijezda. Tu je dakle, postojala skrivena varijabla – broj stanovnika, koju je prilikom donošenje zaključka o uzročnoposljedičnoj vezi trebalo uzeti u obzir.

Naravno, ima i suprotnih primjera kada ne postoji skrivena varijabla. Vrlo rano je ustanovljena korelacija između pušenja i vjerovatnoće da će osoba oboljeti od raka. Duhanska industrija branila je svoju tezu da se ne može uspostaviti uzročno-posljedična veza između pušenja i obolijevanja od raka. Tezu su obrazlagali time da su pušači vrlo često nervozne osobe, koje zbog toga počinju pušiti. Istovremeno postoji korelacija između nervoze i vjerovatnoće da će takva osoba dobiti rak. S druge strane, ljekari su tvrdili da postoji izravna uzročno-posljedična veza između pušenja i podložnosti da osoba dobije rak, što je kasnije i potvrđeno.

Na osnovi utvrđene korelacije ne može se sa sigurnošću utvrditi uzročno-posljedičnu vezu između dviju varijable. Unatoč tome, korelacija daje informaciju o tome da su te dvije varijable na određeni način povezane. Iako se u potpunosti ne shvata mehanizam te povezanosti, zna se da povezanost postoji i prilikom opisa varijabli to se može uzeti u obzir. Naprimjer, poznato je da je povećana tjelesna masa u korelaciji s povećanom smrtnošću i može se reći da su te dvije varijable u međusobnom odnosu. Korelacija se najčešće koristi za predviđanje vrijednosti jedne varijable ovisno o promjeni vrijednosti druge , u slučaju ako su te dvije varijable u korelaciji. Saznanje o korelaciji između dvije varijable pomaže da se s većom sigurnošću predvidi na koji način će se mijenjati vrijednost druge varijable. Npr. poznato je da su količina unesene soli u organizam i visina krvnog pritiska osoba određenog spola i dobi u korelacijskom odnosu i taj odnos je poznat. Na osnovi tih informacija može se dozirati unos potrebne količine soli u organizam, kako bi krvni pritisak ostao unutar granica normale, a organizam primio dovoljnu količinu soli za normalno funkcioniranje.

Utvrđivanjem korelacije između vrijednosti dvije varijable može se dobiti prva informacija o njihovoj međusobnoj povezanosti. Nakon toga, utvrđena povezanost može se detaljnije istražiti drugim statističkim metodama. Npr. korelacijom se utvrdi da postoji veza između korištenje nekog hemijskog spoja i pojave određene bolesti. Nakon toga, može se u pokusnim uvjetima, na laboratorijskim životinjama utvrditi da li stvarno postoji uzročno-posljedična veza između datih varijabli. Korelacija je tu imala ulogu da izolira varijable koje međusobno na neki način utiču jedna na drugu, a nakon toga drugi metodi, koje to mogu, potvrđuju ili odbacuju odgovarajuću hipotezu uzročno-posljedične veze. Korelacija se često koristi za provjeru rezultata testiranja. Nakon provednog testiranja utvrđuje se odgovarajuća korelacija između testiranja i dobivenih rezultata. Nakon što se testiranje ponovi, ponovno se utvrđuje korelacija između novih i prethodno dobivenih rezultata. U slučaju da korelacija ne postoji, obično se zaključuje da je provedeni eksperiment vrlo nestabilan pošto ponovljeni eksperiment ne može ponoviti prethodne rezultate

Također pogledajte

uredi

Vanjski linkovi

uredi
  1. ^ Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Applied General Statistics, Pitman. ISBN 9780273403159 (page 625)
  2. ^ Dietrich, Cornelius Frank (1991) Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement 2nd Edition, A. Higler. ISBN 9780750300605 (Page 331)
  3. ^ Aitken, Alexander Craig (1957) Statistical Mathematics 8th Edition. Oliver & Boyd. ISBN 9780050013007 (Page 95)
  4. ^ Rodgers, J. L.; Nicewander, W. A. (1988). "Thirteen ways to look at the correlation coefficient". The American Statistician. 42 (1): 59–66. doi:10.1080/00031305.1988.10475524. JSTOR 2685263.
  5. ^ Dowdy, S. and Wearden, S. (1983). "Statistics for Research", Wiley. ISBN 0-471-08602-9 pp 230
  6. ^ Francis, DP; Coats AJ; Gibson D (1999). "How high can a correlation coefficient be?". Int J Cardiol. 69 (2): 185–199. doi:10.1016/S0167-5273(99)00028-5.