© 2022 ACREA CR, spol. s r.o. Komparační tabulky © 2022 ACREA CR, spol. s r.o. Výchozí bod • •Jednoduché četnostní tabulky kategoriálních proměnných •Kombinace dvou a více kategoriálních znaků •Úkoly: –Porovnání pozorovaných četnosti u dvou a více znaků –Zjištění zda mezi znaky existuje závislost –Pokud existuje závislost, jaká je její síla http://cdn.xlstat.com/img/tutorials/contingency_result2.png © 2022 ACREA CR, spol. s r.o. Schéma kontingenční tabulky - značení •Kontingenční tabulka je zápis o výskytu jevů v křížové kombinaci dvou kategorizací: řádkové A = (A1, A2, … AR) a sloupcové B = B1, B2, … BC) • • • • • • • • • • • • •n jsou absolutní četnosti výskytů •zaměníme-li písmena f místo n, dostaneme analogický záznam o relativních četnostech, součet hodnot v tabulce 1 (místo n) B A 1 2 … c … C celkem 1 n11 n12 … n1c … n1C n1+ 2 n21 n22 … n2c … n2C n2+ … … … … … r nr1 nr2 … nrc … nrC nr+ … … … … … R nR1 nR2 … nRc … nRC nR+ celkem n+1 n+2 … n+c … n+C n © 2022 ACREA CR, spol. s r.o. Řádkové proporce • • • • • • • • • • • • • •relativní četnosti fc/r dávají v součtu 1 v každém řádku (též v marginálním sloupci) •fc/r , f+C, fr+ jsou obvykle zaměňovány za 100* fc/r%; místo 1 pak je v součtech 100% • • B A 1 2 … c … C celkem celkové rozložení v řádcích 1 f1/1 f2/1 … fc/1 … fC/1 1 f1+ 2 f1/2 f2/2 … fc/2 … fC/2 1 f2+ … … … … … … … … … r f1/r f2/r … fc/r fC/r 1 fr+ … … … … … … … … … R f1/R f2/R … fc/R … fC/R 1 fR+ celkem f+1 f+2 … f+c … f+C 1 1 © 2022 ACREA CR, spol. s r.o. Testování hypotézy o nezávislosti •nulová hypotéza - nezávislost řádkové a sloupcové proměnné –věta o součinu pravděpodobností: P(současně A i B) = P(A)*P(B) –v buňce(C,R) tedy očekáváme, že podíl bude fCR = f+C* f+R –očekávaný počet v buňce(c,r) je eCR = n1+* n+2 /N –rezidua – rozdíl mezi skutečným (observed) a očekávaným (expcected) počtem –testové kritérium založeno na reziduích •použitelné testy –Pearsonův c2 test o nezávislosti –likelihood ratio –rozdělení c2 s (R-1)*(C-1) stupňů volnosti •podmínky použití –očekávané četnosti pod 5 maximálně v 1/5 buněk © 2022 ACREA CR, spol. s r.o. Měření intenzity vztahu •míry pro číselné vyjádření síly závislosti •Cramérovo V –vychází ze statistiky χ2 –interval 0 – 1, bez závislosti až po silnou závislost •Koecifient j –vychází ze statistiky χ2 –maximální hodnota (q-1)^1/2 - horší interpretace –čím vyšší, tím silnější závislost •Koecifient kontingence –vychází ze statistiky χ2 –maximální hodnota (1-1/q)^1/2 - horší interpretace –čím vyšší, tím silnější závislost – – q =min(R,C) © 2022 ACREA CR, spol. s r.o. Další míry síly závislosti •Označují se jako predikční míry •Dělí se podle použití kategoriální proměnné •Odstraňují nevýhody měr vycházejících z chí - kvadrátu •Nejznámější nominální míry –Goodmanův koeficient lambda –Goodman - Kruskalovo tau • •Nejznámější ordinální míry –Somerův koeficient –Koeficient gamma •