1 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu 6.6 Kritika metody v regresním tripletu 6.7 Lineární a nelineární kalibrace 7. Korelační modely STATISTICKÁ ZÁVISLOST Korelace popisuje vliv změny úrovně jednoho znaku na změnu úrovně jiných znaků a platí pro kvantitativní (měřené) znaky; Kontingence popisuje závislost kvalitativních (slovních, popisných) znaků, které mají více než dvě alternativy, tzv. množných znaků (např. druh dřeviny, národnost, apod.); Asociace popisuje závislost kvalitativních (slovních, popisných) znaků, které mají pouze dvě alternativy, tzv. alternativních znaků (např. pohlaví, odpovědi typu ano/ne, …). KORELACE typy podle počtu korelovaných znaků Jednoduchá popisuje vztah dvou znaků, Mnohonásobná popisuje vztahy více než dvou znaků, Parciální popisuje závislost dvou znaků ve vícerozměrném statistickém souboru při vyloučení vlivu ostatních znaků na tuto závislost· KORELACE typy podle smyslu změny hodnot Kladná značí, že se zvyšováním hodnot jednoho znaku se zvyšují i hodnoty druhého znaku, Záporná značí, že se zvyšováním hodnot jednoho znaku se zmenšují hodnoty druhého znaku, KORELACE typy podle tvaru závislosti Přímková (lineární) značí, že grafickým obrazem závislosti je přímka (lineární trend), Křivková (nelineární) značí, že grafickým obrazem závislosti je křivka (nelineární trend). KORELAČNÍ POČET Korelační analýza zjišťuje existenci závislosti a její druhy, měří těsnost závislosti, ověřuje hypotézy o statistické významnosti závislosti; Regresní analýza zabývá se vytvořením vhodného matematického modelu závislosti, stanoví parametry tohoto modelu, ověřuje hypotézy o vhodnosti a důležitých vlastnostech modelu. MÍRA KORELAČNÍ ZÁVISLOSTI 2x x2 x1 CELKOVÁ VARIABILITA Y (odchylka měřené hodnoty od průměru) REZIDUÁLNÍ VARIABILITA (odchylka měřených a modelových - vypočítaných – hodnot) VARIABILITA VYSVĚTLENÁ MODELEM (odchylka modelových hodnot od průměru) MÍRA LINEÁRNÍ KORELAČNÍ ZÁVISLOSTI 2x x2 x1 CELKOVÁ VARIABILITA Y (odchylka měřené hodnoty od průměru) REZIDUÁLNÍ VARIABILITA (odchylka měřených a modelových - vypočítaných – hodnot) VARIABILITA VYSVĚTLENÁ MODELEM (odchylka modelových hodnot od průměru)   n 2 2i i=1 2x - x n =   n 2 i= 2i 1 2 x-x n +   2i n 2 2i i=1 x - x n MÍRA LINEÁRNÍ KORELAČNÍ ZÁVISLOSTI  2 1 2 2 2 2 2 x x 2 x 2 x x2 R = = S - S 1 S S KOEFICIENT DETERMINACE KOEFICIENT KORELACE  2 2 1 22 2 x x x 2 x 2 x 2 R = = 1 S S - S S KOEFICIENT DETERMINACE vyjadřuje, jakou část celkové variability závisle proměnné (vysvětlované proměnné) objasňuje regresní model. r2 = 0.9 r2 = 1 r2 = 0.05 KORELAČNÍ KOEFICIENT Pro jednoduchou korelaci: Párový představuje zvláštní případ vícenásobného korelačního koeficientu, kdy vyjadřuje míru lineární stochastické závislosti mezi náhodnými veličinami xi a xj, Pearsonův Spearmanův (korelace pořadí) KORELAČNÍ KOEFICIENT Pro vícenásobnou korelaci: Vícenásobný definuje míru lineární stochastické závislosti mezi náhodnou veličinou x1 a nejlepší lineární kombinací složek x2, x3, ..., xm náhodného vektoru x Parciální definuje míru lineární stochastické závislosti mezi náhodnými veličinami xi a xj při skonstantnění ostatních složek vektoru x x1 x2 x3 x4 x1 x2 x3 x4 PEARSONŮV KORELAČNÍ KOEFICIENT r 21 21 1221 xx xx xxxx SS cov rr   normovaná kovariance Podmínkou je dodržení dvourozměného normálního rozdělení PEARSONŮV KORELAČNÍ KOEFICIENT r míra intenzity vztahu mezi složkami vícerozměrného souboru je mírou intenzity lineární závislosti je vždy nezáporná její limitou je součin směrodatných odchylek je symetrickou funkcí svých argumentů její velikost je závislá na měřítku argumentů  nutnost normování KOVARIANCE:    2i2 n 1i 1i1xx xxxx n 1 cov 21    PEARSONŮV KORELAČNÍ KOEFICIENT r Základní vlastnosti Pearsonova korelačního koeficientu: je to bezrozměrná míra lineární korelace; nabývá hodnoty 0 – 1 pro kladnou korelaci, 0 – (-1) pro zápornou korelaci; hodnota 0 znamená, že mezi posuzovanými veličinami není žádný lineární vztah (může být nelineární) nebo tento vztah zůstal na základě dat, které máme k dispozici, neprokázán; hodnota 1 nebo (-1) indikuje funkční závislost; hodnota korelačního koeficientu je stejná pro závislost x1 na x2 i pro opačnou závislost x2 na x1. PEARSONŮV KORELAČNÍ KOEFICIENT r výpočet v Excelu Pearsonův R SPEARMANŮV KORELAČNÍ KOEFICIENT Neparametrický korelační koeficient, vycházející nikoli z hodnot, ale z jejich pořadí. Používá se tehdy, nejsou-li závažným způsobem splněny předpoklady pro použití Pearsonova korelačního koeficientu. nn d6 1r 3 n 1i 2 i S      Diference mezi pořadími hodnot x a y v jednom řádku SPEARMANŮV KORELAČNÍ KOEFICIENT vlivné body (outliers) Pearsonův R = -0,412 (započítává se účinek vlivných bodů) Spearmanův R = +0,541 (účinek vlivných bodů je značně omezen) MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT vyjadřuje sílu závislosti jedné proměnné na dvou a více jiných proměnných 1 n 1 1 1 n n n II III m II I I I I I m x x x x x x x x                   MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT a) 0  R  1 b) Pokud je R = 1, znamená to, že závisle proměnná x1 je přesně lineární kombinací veličin x2, ..., xm . c) Pokud je R = 0, potom jsou také všechny párové korelační koeficienty nulové. d) S růstem počtu vysvětlujících (nezávislých) proměnných hodnota vícenásobného korelačního koeficientu neklesá, tj. platí R1(2)  R1(2,3)  ...  R1(2, ..., m) . Základní vlastnosti: MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT numerický výpočet = determinant korelační matice = determinant korelační matice s vypuštěným sloupcem a řádkem odpovídajícím té proměnné, jejíž závislost na zbytku matice se vypočítává )det( )det( 1R )m,...,3,2(1 (11)R R  korelační koeficient 1. a 2. proměnné                   1RRR 1 R1R 1 1R RRR1 mi2m1m im1i 21 m1i112       =R Korelační matice R MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT 12 1 1 21 1 1 2 1(2,3,..., ) 12 1 1 21 1 1 2 d 1 1 1 1 1 1 1 1 1 1 1 1 et( ) det det( ) det 1 ( ) ) ( i m i im m m mi m i m i im m m mi R R R R R R R R R R R R R R R R R R R                                         (11) (11) R R R R MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT numerický výpočet v Excelu  det( ) 0.0 det( ) 0.004755585 107149 1 47 1 1        (11) (11)R = DETERMIN R = DETERM ANT( INA 0 NT(R .7 ) R ) 4577 MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT numerický výpočet v Excelu  Nástroje Analýza dat Regrese MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT numerický výpočet v Excelu PARCIÁLNÍ KORELAČNÍ KOEFICIENT Používá se k posouzení síly závislosti dvou veličin ve vícerozměrném souboru při vyloučení vlivu ostatních veličin. Podle počtu „vyloučených“ proměnných se stanovují řády parciálního R v příkladu vlevo to je parciální korelace III. řádu (3 „vyloučené“ proměnné) PARCIÁLNÍ KORELAČNÍ KOEFICIENT výpočet „Klasický“ výpočet je velmi zdlouhavý – vychází se z korelační matice, poté se počítají parciální korelace I. řádu (s jednou vyloučenou proměnnou), z nich II. řádu (dvě vyloučené proměnné), atd. až do potřebného řádu. Při využití Excelu je možné využít vzorce )det()det( )det()1( R )jj()ii( )ij( j )m,...,2,1(ij RR R    PARCIÁLNÍ KORELAČNÍ KOEFICIENT numerický výpočet v Excelu )det()det( )det()1( R )jj()ii( )ij( j )m,...,2,1(ij RR R    2 (12) (1,2,..., ) (11) (22) ( 1) det( ) det( ) det( ) ij m R R R R     PARCIÁLNÍ KORELAČNÍ KOEFICIENT numerický výpočet v Excelu det(R(11)) = 0.010715 det(R(12)) = 0.006086 det(R(22)) = 0.010248 PARCIÁLNÍ KORELAČNÍ KOEFICIENT numerický výpočet v Excelu 2 (12) 12(3,4,5) (11) (22) ( 1) det( ) 1 0.00608 0.58082 det( ) det( ) 0.01071 0.01025 R R R R         Parciální korelační koeficient III. řádu pro závislost proměnných x1 a x2 (při vyloučení vlivu proměnných x3, x4 a x5) je 0.58. TESTY VÝZNAMNOSTI V KORELAČNÍ A REGRESNÍ ANALÝZE test významnosti korelačního koeficientu test významnosti modelu jako celku test významnosti jednotlivých regresních parametrů test shody lineárních regresních modelů a mnoho dalších ….. TEST VÝZNAMNOSTI R Test významnosti odpoví, zda je korelace mezi výběrovými proměnnými R natolik silná, abychom ji mohli považovat za dostatečně prokázanou i pro základní soubor . 2R R1 2nR t   Pro párový R: t,n-2 Pro násobný R:     1mR1 mnR F 2 2 R    t,n-m Pro parciální R: 2 2 1 R R n k t R      t,n-k-2 KH m – počet proměnných k – počet „vyloučených“ proměnných n – počet hodnot výběru 40 47 Úlohy na výstavbu korelačního modelu Korelace Postup analýzy úloh: 1) Graf regresní křivky. 2) Vyšetřete graf rezidua vs. predikce. 3) R, D, s(e). 4) Fisher-Snedecorův test celkové regrese. 5) Odhady parametrů přímky: úsek a směrnice. 48 Úloha B7.01 Vliv množství farmaka na dobu práce pacienta Zadání: Byl sledován účinek množství podpůrného farmaka na organismus v době, ve které je pacient schopen provést standardní manuální výkon. Úkoly: Rozhodněte, zda existuje korelace mezi oběma proměnnými x2 a x1 a nalezněte lineární stochastickou vazbu k vyjádření doby manuální práce x2 na množství farmaka x1. Co v tomto případě rozumíme pod pojmem míra lineární stochastické vazby? Data: Množství farmaka x1 [mg], doba práce x2 [min]: x1 x2 15 48 ... ... 75 200 49 Úloha B7.02 Vliv úniku radioaktivního odpadu na růst úmrtnosti na rakovinu Zadání: Při úniku radioaktivního odpadu ze skládky v Hanfordu do řeky Columbia bylo vystaveno radioaktivitě obyvatelstvo v 9 okresech. Byla sledována úmrtnost na rakovinu x1 (úmrtí na 100000 lidí v letech 1959- 64) v různých vzdálenostech od Hanfordu x2. Úkoly: 1) Účelem je zjistit, zda existuje korelace mezi úmrtností a ozářením, vyjádřeným vzdáleností od skládky. 2) Popište možné korelační modely pro dvě náhodné veličiny. Data: Úmrtnost na rakovinu x1 [počet], vzdálenost od radioaktivní skládky x2 [km]: x1 x2 1.20 120 ... ... 11.6 210 50 Úloha B7.03 Spotřeba cigaret a úmrtí na rakovinu plic Zadání: Z náhodného výběru v šesti státech USA byla zjištěna spotřeba cigaret na obyvatele x1 a roční míra úmrtnosti na 100 000 lidí následkem rakoviny plic x2. Úkoly: 1) Vyšetřete, zda existuje korelace mezi oběma proměnnými x1 a x2 na hladině významnosti α = 0.05. 2) Uveďte druhy korelačních modelů. Data: Spotřeba cigaret x1 [četnost], úmrtnost x2 [četnost]: x1 x2 3400 24 ... ... 2100 20 51 Úloha B7.04 Závislost věku žen a koncentrace cholesterolu v krvi Zadání: Z náhodného výběru 50 amerických žen byla zjištěna následující data o věku x1 a koncentraci cholesterolu v krvi [g/l] x2 u prvních pěti žen. Úkoly: 1) Vyšetřete míru korelace mezi oběma proměnnými x1 a x2. 2) Jaká je příčinná souvislost s korelací dvou veličin? Data: Věk žen x1 [roky], koncentrace cholesterolu v krvi x2 [g/l]: x1 x2 30 1.6 ... ... 50 2.7 52 Úloha B7.05 Obsahu dehtu, nikotinu a CO v cigaretách Zadání: Federální komise obchodu USA posuzuje domácí cigarety dle obsahu dehtu x1 [mg], nikotinu x2 [mg] a hmotnosti cigarety x3 [g] a konečně i obsahu oxidu uhelnatého CO x4 [mg] v uvolněném cigaretovém kouři. Hlavní hygienik USA totiž považuje faktory x1, x2 a x4 za vysoce nebezpečné pro zdraví člověka. Poslední studie ukázaly, že zvyšující se obsah dehtu a nikotinu spolu nesou i zvýšení obsahu oxidu uhelnatého. Úkoly: 1) Vyšetřete, zda existuje na hladině výynamnosti α = 0.05 korelace mezi proměnnými (a) x1 a x4, dále (b) x2 a x4, a (c) x3 a x4. 2) Vysvětlete pět základních vlastností vícenásobného korelačního koeficientu pro více náhodných veličin. Data: Obsah dehtu x1 [mg], obsah nikotinu x2 [mg], hmotnost cigarety x3 [g], obsah oxidu uhelnatého CO x4 [mg]: Druh cigaret x1 x2 x3 x4 Alpine 14.1 0.86 0.9853 13.6 ... ... ... ... ... Winston L. 12.0 0.82 1.1184 14.9 53 54 55 56 57 58