© 2022 ACREA CR, spol. s r.o. Korelační analýza souvislost, souběžnost, příčinnost © 2022 ACREA CR, spol. s r.o. Francis Galton (1822 – 1911) polyhistor psycholog, antropolog, meteorolog, geograf, genetik, biolog, kriminolog, psychometrik, statistik 'Hereditary Genius' první mapa počasí otisky prstů dotazníky pro subjektivní názory koncept korelace regrese k průměru bratranec Charlese Darwina “Men who leave their mark on the world are very often those who, being gifted and full of nervous power, are at the same time haunted and driven by a dominant idea, and are therefore within a measurable distance of insanity” Soubor:Francis Galton 1850s.jpg Francis Galton (1822 – 1911) 2 © 2022 ACREA CR, spol. s r.o. Karl Peason (1857 – 1936) matematik filozof zakladatel matematické statistiky zakladatel biometrie 'Gramatika vědy' redaktor Biometriky korelační koeficient chí-kvadrát testy momentová metoda http://biology.kenyon.edu/courses/math258/pearson.jpg "The day must come when the biologist will, without being a mathematician, not hesitate to use mathematical analysis when he requires it." Karl Pearson Karl Pearson (1857 – 1936) 3 © 2022 ACREA CR, spol. s r.o. Úlohy a otázky: • A) Souvisí spolu výskyt proměnné X a proměnné Y tak, že s vyššími hodnotami X se pojí vyšší hodnoty Y (a nižšími nižší), či naopak s vyššími hodnotami X se pojí nižší hodnoty Y (a s nižšími X vyšší Y)? • B) Můžeme v datech zjistit souběžnost resp. protiběžnost hodnot dvou číselných proměnných? • C) Je hodnota Y důsledkem hodnoty X? Reprezentuje proměnná X příčinu pro důsledek Y? • D) Jsou X a Y nositeli (částečně) stejné informace? • E) Vylučují se (resp. doplňují se) X a Y nebo naopak jedno předpokládá druhé? • •Korelační analýza zkoumá vztah dvou číselných proměnných. • • 4 © 2022 ACREA CR, spol. s r.o. Statistika •statistika zkoumá variabilitu dat: •popisuje ji •vysvětluje ji •predikuje ji – •korelační analýza zkoumá společnou variabilitu (kovariabilitu): •popisuje ji •používá ji pro vysvětlení •používá ji pro predikci 5 © 2022 ACREA CR, spol. s r.o. Variabilita •Variabilitu proměnné popisujeme rozptylem • Normální rozdělení - george11.eu Rozptyl — Matematika polopatě © 2022 ACREA CR, spol. s r.o. Souběh a protiběh variabilit © 2022 ACREA CR, spol. s r.o. Popis kovariability •kovariance: souběh variabilit dvou proměnných • • • • 8 © 2022 ACREA CR, spol. s r.o. Kovariance •Kovariance = Souběh variabilit dvou proměnných –Statistická míra lineární závislosti dvou veličin –Je vyjádřena v jednotkách X a Y • • • • •cov(XY) > 0 -> souvislost mezi veličinami X a Y je pozitivní (čím větší X tím větší Y a naopak) •cov(XY) < 0 -> souvislost mezi veličinami X a Y je negativní (čím větší X tím menší Y a naopak) •nezávislé veličiny mají cov(XY) = 0, ale neplatí, že by cov(XY) = 0 znamenalo, že X a Y jsou nezávislé •kovariance nám neříká nic o síle vazby How would you explain covariance to someone who understands only the mean? - Cross Validated © 2022 ACREA CR, spol. s r.o. - + + - průměr Y průměr X • Kovariance © 2022 ACREA CR, spol. s r.o. Kovariance © 2022 ACREA CR, spol. s r.o. Korelace – kovariance v poměru k rozptylům •korelace = vztah dvou proměnných • = kovariance standardizovaná k rozptylům obou proměnných • = měří vztah dvou variabilit, nikoliv jejich velikost 12 © 2022 ACREA CR, spol. s r.o. Korelace - typy •Párová korelace •Parciální korelace •Mohonásobná korelace • 13 Correlation - Introduction, Types © 2022 ACREA CR, spol. s r.o. Párová korelace - Pearsonův lineární korelační koeficient •Korelace –Měří vztah dvou proměnných –Jedná se o kovarianci standardizovanou k rozptylům obou proměnných – – – – – •Vlastnosti: •r definován, pro n > 1 •r definován pro nenulové variability; • nesmí platit sX = 0 nebo sY = 0 •r = 1, právě když body jsou seřazeny v nějaké přímce s nenulovým kladným spádem •r = -1, právě když body jsou seřazeny v nějaké přímce s nenulovým záporným spádem •čím více se r blíží k +1, tím více se body shlukují kolem stoupající přímky; čím více se r blíží k –1, tím více se body shlukují kolem klesající přímky •jestliže v mraku bodů nelze vystopovat žádný lineární trend, r = 0 – © 2022 ACREA CR, spol. s r.o. Pearsonův lineární korelační koeficient © 2022 ACREA CR, spol. s r.o. Pearsonův lineární korelační koeficient •Další vlastnosti: • •r se nezmění, když se • - posune škála jedné nebo obou proměnných o libovolnou konstantu (změna počátku) • - změní škála jedné nebo obou proměnných násobkem libovolnými činiteli (změna měřítka) • •Nulové r –mrak bodů tvoří pravidelný kruhový útvar –přímka, kolem které se shlukují body, je vodorovná nebo svislá –body leží symetricky kolem osy procházející průměrem X a to i když odpovídají úplné závislosti Y na X, • např. Y = (X – 4)2 –silné shlukování kolem rostoucí/klesající přímky je zkresleno bodem vzdáleným od mraku –kříží se kladný a záporný trend – překrytí dvou bodových mraků © 2022 ACREA CR, spol. s r.o. Zkreslení koeficientu korelace •vzdálený bod – mrak bodů ukazuje na silnou/slabou korelaci, ale vzdálený bod ji uměle sníží/zvýší •dvě skupiny nulové korelace umístěné v rovině vykazují vyšší korelaci •číselné proměnné mají diskretní povahu (škála celých čísel od 1 do K) a přesné seskupení hodnot kolem přímky není plně možné •jsou-li rozložení X a/nebo Y výrazně šikmá s dlouhým koncem 17 © 2022 ACREA CR, spol. s r.o. všechny situace mají stejný korelační koeficient = 0.816 (Anscombe 1973) S:\CENTRUM VÝUKY\KURZY JEDNODENNÍ\RA I a II\čtyři situace.gif Zkreslení koeficientu korelace 18 © 2022 ACREA CR, spol. s r.o. r2 – koeficient determinace •procento společné variability •procento společné informace • •uvádíme i v procentech: 100*r2 % • •koeficient indeterminace: 1 - r2 (též i v %) • •hranice pro zabarvení matice (libovolné, ale užitečné): R= .9, .7, .5, .3, • odpovídá zhruba determinacím: • R2 = 80%, 50%, 25% a 10% 19 © 2022 ACREA CR, spol. s r.o. Poučky o velikosti koeficientů Hodnota korelace v absolutní hodnotě Interpretace souvislosti 0,01 – 0,09 triviální, žádná 0,10 – 0,29 nízká až střední 0,30 – 0,49 střední až podstatná 0,50 – 0,69 podstatná až velmi silná 0,70 – 0,89 velmi silná 0,90 – 0,99 téměř perfektní 20 De Vaus: 2002 © 2022 ACREA CR, spol. s r.o. Další míry korelace •jiná data (pořadí) •šikmá rozložení •vzdálená pozorování •zvyklosti oboru •komparace s jinými výstupy • 21 © 2022 ACREA CR, spol. s r.o. Pořadová korelace – Spearmanovo r •Spearmanův koeficient pořadové korelace r vznikne tak, že se do vzorečku pro Pearsonův lineární korelační koeficient dosadí místo hodnot X a Y jejich pořadí v řadě •též lze počítat přímo z pořadí; vychází ze vzdálenosti/nepodobnosti pořadí • •r = 1, pokud jsou řady zcela shodné •r = -1, pokud jsou řady zcela protichůdné •r = 0, pokud mezi řadami není žádná tendence ke shodě či protichůdnosti, ale pořadí jsou k sobě zcela náhodně • 22 © 2022 ACREA CR, spol. s r.o. + - + shoda - neshoda Pořadová korelace – Kendallovo t 23 © 2022 ACREA CR, spol. s r.o. Pořadová korelace Kendallovo t •t = (počet shod – počet neshod)/(počet shod + počet neshod) § § § §dvojice, které mají stejné hodnoty jedné nebo obou proměnných se nepočítají ani do shod ani do neshod • 24 shoda bodu X odpovídá vyšší hodnota u obou proměnných než má Y Y X neshoda bod X má hodnotu u jedné proměnné vyšší než Y a u druhé nižší Y X •t = 1, pokud jsou řady zcela shodné •t = -1, pokud jsou řady zcela protichůdné •t = 0, pokud mezi řadami není žádná tendence ke shodě či protichůdnosti, ale pořadí jsou k sobě zcela náhodně Pozn.: pro menší soubory je nutno spočítat signifikance přesně © 2022 ACREA CR, spol. s r.o. Testy hypotéz •u statistických řad, jejichž souběžnost zjišťujeme, a které reprezentují obecnější situaci, výsledky procesů či širší základní soubor je podstatné vědět, zda o korelovanosti vůbec můžeme mluvit • –základní otázka: můžeme považovat dvě řady za korelované, nebo koeficient korelace zachycuje pouze náhodně vzniklé souladnosti v řadách? – –tedy: Je možné, že souběh/protiběh řad reprezentuje nenáhodný vztah, nebo mohl vzniknout jen působením náhody? • • 25 © 2022 ACREA CR, spol. s r.o. Testy hypotéz •u korelačních koeficientů je základní dvojicí hypotéz, které testujeme: • –H0: korelační koeficient je nulový –HA: korelační koeficient je nenulový • •prokazujeme, že naše spočtená míra je signifikantně nenulová, tedy, že v datech se projevuje nějaký nenáhodně vzniklý vztah (hypotéza HA) •platí pro Pearsonův, Spearmanův, Kendallův i Blomquistův koeficient – nenulová signifikance ukazuje na vlastnosti charakterizované koeficientem (linearní trend, monotonní trend, diagonální rozmístění dat) • 26 © 2022 ACREA CR, spol. s r.o. Testy hypotéz H0: r = 0 •t – test: • • • •Studentovo t-rozložení – tabulky nebo výpočet dosažené signifikance •dosadíme-li za t kritické hodnoty, dostaneme kritické hodnoty pro r přímo • • 27 © 2022 ACREA CR, spol. s r.o. Testy hypotéz H0: r = 0 •z – test: • • • •má normální rozdělení, tj. kritickou hodnotu pro alfa = 0.05 je 1.96 •ve skutečnosti je test vychýlen • • 28 © 2022 ACREA CR, spol. s r.o. Význam signifikance •signifikance znamená pouze nenulovost a nenáhodnost koeficientu, rozhodnutí o tom, zda je hodnota zajímavá provádí analytik • •signifikantní neznamená tedy ještě, že hodnota koeficientu, tj. síla vztahu je dostatečná na to, abychom ji považovali za interpretačně zajímavou. tj. za věcně interpretovatelnou •i nízké hodnoty koeficientu korelace mohou být zajímavé • a) ukazují na trend, který se začíná objevovat a prosazovat, • ukazují na nové procesy • b) ukazují trendy, které jsou přehlušeny velkými šumy, ale existují • c) naznačují zprostředkovanou vazbu •POZOR: test signifikance vychází pouze z hodnoty r ne z celkové struktury bodů: proto signifikance může být způsobena odlehlými pozorováními 29 © 2022 ACREA CR, spol. s r.o. Význam nesignifikance •signifikance ukazuje na působení nenáhodných faktorů • x •nesignifikance (tj. nepřijatelně vysoké riziko přijetí korelovanosti proměnných) může znamenat: • správný závěr: korelace je nulová nebo nepatrná • chybu 2. druhu (vztah existuje, ale neprokázali jsme ho): •korelace není prokázána vzhledem k malému počtu případů/pozorování (nemáme dost statistické informace k prokázání existujícího vztahu) •trend v datech je zahlušen velkými chybami měření •trend je rušen odlehlými pozorováními •trend je rušen pozorováními, která do zkoumaného vztahu nepatří •trendy jsou v datech dva ve dvou podsouborech a kříží a ruší se navzájem • 30 © 2022 ACREA CR, spol. s r.o. Korelace a směr závislosti • nezaměstnanost volební přízeň 31 ? počet čápů na 1000 obyv. počet dětí na 1000 obyvatel schopnost tvrdá práce © 2022 ACREA CR, spol. s r.o. Parciální korelace – společná příčina • čápi děti r = .56 • • čápi děti r = .56 • • čápi děti r = .56 • • r(v,č) = .81 r(v,d) = .69 • velikost sídla • •čápi děti r(č,d/v) = 0.0 • • r(v,č) = .81 r(v,d) = .69 • velikost sídla 32 © 2022 ACREA CR, spol. s r.o. Schéma nepravé korelace •příčina Z ovlivňuje hodnoty proměnných X a Y • • • • • • • • • • • • •otázka: jaká je korelovanost X a Y po očištění od vlivu Z? •úloha: jak změřit tuto korelovanost a vliv Z na vztah X a Y ? 33 X Y Z © 2022 ACREA CR, spol. s r.o. Parciální korelace •X, Y, Z (tři známé proměnné v datech, jejichž vzájemné korelace jsou známy): • • • • •je-li parciální korelační koeficient roven nebo blízko k nule (nesignifikantní), znamená to, že proměnná Z plně vysvětluje korelaci mezi X a Y • •pokud se parciální koeficient jen podstatně redukuje, znamená to, že Z ovlivňuje vztah X a Y , ale není samo 34 © 2022 ACREA CR, spol. s r.o. Parciální korelace •Model 1: Společná příčina X, Y, Z: • X Y • • • Z • •Model 2: Zprostředkující vlastnost •X Z Y • • •Modely 1 a 2 se nedají statisticky odlišit 35 Z = společná příčina r(X,Y) ¹ 0, r(X,Z) ¹ 0, r(Y,Z) ¹ 0, r(X,Y/Z) = 0 r(X,Y) ¹ 0, r(X,Z) ¹ 0, r(Y,Z) ¹ 0, r(X,Y/Z) = 0 © 2022 ACREA CR, spol. s r.o. Korelační analýza •korelační analýza je první stupeň analýzy vztahů, po ní následují: • –regresní analýza – tvar (model) orientovaných závislostí, –faktorová analýza – přehledná struktura vztahů a hledání společných příčin mnoha proměnných, –analýza kovariančních struktur a kauzálních sítí – kauzální modelování –škálování – grafické zobrazování vztahů, analýza pořadových a nelineárních koeficientů –speciální analýzy … 36