© 2022 ACREA CR, spol. s r.o. ANOVA © 2022 ACREA CR, spol. s r.o. Otázky a motivace •Situace: měříme hodnoty číselné proměnné u jednotek, které jsou klasifikovány do K nepřekrývajících se skupin. • •Liší se od sebe populační průměry (střední hodnoty) ve skupinách nebo jsou zjištěné rozdíly výběrových průměrů způsobené pouze náhodou? •Jsou hodnoty analyzované proměnné ovlivněné sledovaným faktorem (skupinami)? • •Úloha porovnání průměrů v několika skupinách je rozšířením situace dvouvýběrového t-testu pro více skupin 2 © 2022 ACREA CR, spol. s r.o. Variabilita 3 © 2022 ACREA CR, spol. s r.o. Nulová a alternativní hypotéza •H0: průměry (střední hodnoty) ve skupinách se rovnají, tj. • m1 = m2 = … = mK •HA: průměry (střední hodnoty) nějakých dvou skupin se nerovnají, tj. • $ i,j: mi ¹ mj • •Alternativní možnost formulace: •H0: mi = m pro všechna i a nějakou konstantu m (tj. existuje společná střední hodnota m ) •HA: mi ¹ m alespoň pro jednu skupinu i (společná hodnota m neexistuje) 4 © 2022 ACREA CR, spol. s r.o. Rozklad variability 5 © 2022 ACREA CR, spol. s r.o. Grafické znázornění rozkladu (1) 6 © 2022 ACREA CR, spol. s r.o. Grafické znázornění rozkladu (2) 7 © 2022 ACREA CR, spol. s r.o. Korelační poměr - motivace •Jak silná je vazba mezi číselnou proměnnou a nezávislou nominální proměnnou? •Jak dobře vysvětluje rozdělení souboru do zkoumaných skupin variabilitu číselné proměnné? •Který ze zkoumaných faktorů nejsilněji ovlivňuje analyzovanou proměnnou? 8 ? © 2022 ACREA CR, spol. s r.o. Korelační poměr 9 © 2022 ACREA CR, spol. s r.o. Fisherův test 10 © 2022 ACREA CR, spol. s r.o. Tabulka ANOVA 11 součty čtverců stupně volnosti průměrné čtvercové odchylky testová statistika F dosažená hladina významnosti celkem uvnitř skupin mezi skupinami © 2022 ACREA CR, spol. s r.o. Předpoklady •pozorování jsou mezi sebou navzájem nezávislá •skutečné hodnoty a chyby jsou navzájem nezávislé •výběry pocházejí z normálního rozdělení •výběry jsou navzájem nezávislé (mají prázdný průnik) •ve skupinách jsou stejné rozptyly • •Pozn.: Simulační studie a zkušenosti z aplikací ukazují, že první předpoklad je kritický a jeho nedodržení silně ovlivňuje aplikabilitu. Předpoklady normálního rozdělení a shody rozptylů nemají na výsledky rozhodující vliv. Metoda je proti jejich použití značně robustní. 12 © 2022 ACREA CR, spol. s r.o. Ověřování předpokladů (1) •Předpoklad shody rozptylů ve skupinách •Leveneho test •H0: rozptyly ve skupinách se rovnají, tj. • s1 = s 2 = … = sK •HA: rozptyly některých dvou skupin se nerovnají, tj. • $ i,j: si ¹ sj • • • • • •Pozn.: Statistika F je poměrně robustní vzhledem k odchylkám od tohoto předpokladu v případě, že velikost skupin je stejná nebo téměř stejná. Pokud se však velikosti skupin i rozptyly liší, je vhodnější užít robustnější testy. • 13 © 2022 ACREA CR, spol. s r.o. Welschův a Brown-Forsythův test •Robustnější testy vzhledem k odchylkám od shody rozptylů •Welschův test •Brown-Forsythův test • 14 © 2022 ACREA CR, spol. s r.o. Ověřování předpokladů (2) •Předpoklad normálního rozložení •Ověřování: •a) grafické metody (histogram, boxplot, Q-Q Plot …) 15 © 2022 ACREA CR, spol. s r.o. Ověřování předpokladů (3) •b) testy: –Kolmogorov-Smirnov – test založený na porovnání distribučních funkcí: teoretické pro normální rozložení a kumulativní empirické distribuční funkce –Shapiro-Wilk – test založený na porovnání kvantilových hodnot (pořádkových statistik) teoretické a uspořádané statistické řady • • • • • 16 H0: proměnná má normální rozložení © 2022 ACREA CR, spol. s r.o. Kruskal-Wallisův test •Analyze – Nonparametric Tests – Legacy dialogs – N Independent Samples •Dva a více nezávislých výběrů •H0: Všechny pozorované skupiny pochází ze stejného rozdělení •HA: Alespoň jedna z pozorovaných skupin pochází z jiného rozdělení •Liší-li se rozdělení jen svými parametry považujeme je také za rozdílná, tj. platí HA. •testovaná rozdělení není třeba specifikovat •neparametrická alternativa ANOVA • 17