KORELAČNÍ ANALÝZA Doc. Mgr. Jiří Mazurek, Ph.D. Korelační analýza •Měření intenzity závislosti mezi proměnnými •Úzká návaznost na regresní analýzu, neboť se v ní využívá teorie lineárních regresních modelů •Nehledá formu vztahu mezi proměnnými, neboť už primárně vychází z předpokladu, že tento vztah je lineární (dokonce nejen z hlediska parametrů, ale i z hlediska proměnných), a soustředí se na konstrukci měr závislostí mezi těmito proměnnými. Pearsonův korelační koeficient Pearsonův korelační koeficient • Pearsonův korelační koeficient Pearsonův korelační koeficient – varovný příklad I Pearsonův korelační koeficient – varovný příklad II Ve všech případech níže je Pearsonův korelační koeficient = 0.816! Hodnoty koeficientu korelace •Pro párový koeficient korelace platí, že ρxy je z intervalu [-1,1]. •Je-li ρxy = 0, říkáme, že veličiny X a Y jsou nezkorelované. •Je-li ρxy = 1 nebo ρxy = -1, existuje přesná funkční závislost mezi veličinami X a Y v podobě přímky. •Tato přímka je rostoucí v prvním případě a klesající ve druhém případě. •Je-li ρxy= 0, je třeba se omezit pouze na konstatování, že obě veličiny jsou nezkorelované. Nelze tvrdit, že jsou (statisticky) nezávislé. Příklad x 1 3 4 5 6 y 3 8 11 14 19 Graf závislosti y na x • Test statistické významnosti korelačního koeficientu Příklad •Mějme hodnoty xi a yi získané náhodným výběrem: • • • • • • •Pro tyto hodnoty vypočítejte hodnotu korelačního koeficientu a testujte jeho statistickou významnost na hladině významnosti 0,01. Příklad - řešení Koeficient determinace •Koeficient determinace určuje přiléhavost dat ke zvolenému modelu • • •Koeficient determinace tedy udává kvalitu regresního modelu, přesněji vyjádřeno udává, kolik procent rozptylu vysvětlované proměnné je vysvětleno modelem a kolik zůstalo nevysvětleno; •Nabývá hodnot od nuly do jedné (teoreticky i včetně těchto krajních mezí), přičemž hodnoty blízké nule značí špatnou kvalitu regresního modelu; hodnoty blízké jedné značí dobrou kvalitu regresního modelu; •Udává se většinou v procentech. • SPEARMANŮV KORELAČNÍ KOEFICIENT Příklad •Výrobky byly seřazeny dle jakosti dvěma komisemi, z nichž jednu tvořili odborníci a druhou zástupci laické veřejnosti. Rozhodněte, zda se výsledky hodnocení obou komisí shodují ve smyslu korelace. Příklad - řešení •V levé části níže uvedené tabulky jsou pořadí, v pravé části této tabulky jsou spočteny rozdíly v pořadí. Test statistické významnosti pořadového koeficientu korelace Příklad – test významnosti pořadového koeficientu korelace •Koeficient nám vyšel 0,97, počet pozorování n = 10. Hladina významnosti alfa budiž 0,05. •Nulová hypotéza: veličiny x a y jsou nezávislé. •Testové kritérium: T = (n-1)*r = 9*0.97 = 8,73. •Kritická hodnota K (z tabulky normovaného normálního rozdělení): K = 1,96. •Protože je T větší než K, nulovou hypotézu zamítáme. • • VÍCENÁSOBNÁ ZÁVISLOST – PŘÍPAD DVOU VYSVĚTLUJÍCÍCH PROMĚNNÝCH Pearsonův korelační koeficient v Excelu •Použijeme funkci CORREL. •Vyzkoušejte si ji na tomto příkladu: • x 10 15 16 19 22 25 y 44 40 38 39 35 31 Spearmanův koeficient •Není definován v Excelu, nicméně dá se určit následovně. Mějme tato data: • • • • • •Seřaďme je takto: • Pořadí Expert 1 Expert 2 1 Praha Vídeň 2 Vídeň New York 3 New York Praha 4 Paríž Paříž 5 Londýn Řím 6 Řím Londýn pořadí podle E1 pořadí podle E2 Praha 1 3 Vídeň 2 1 New York 3 2 Paríž 4 4 Londýn 5 6 Řím 6 5 Pokračování •Nyní můžete použít vzorec, nebo použijete v Excelu funkci CORREL na oba sloupce pořadí. Výsledek bude stejný ;-) (0,77) pořadí podle E1 pořadí podle E2 Praha 1 3 Vídeň 2 1 New York 3 2 Paríž 4 4 Londýn 5 6 Řím 6 5 Děkuji za pozornost