© 2022 ACREA CR, spol. s r.o. Neparametrické testy © 2022 ACREA CR, spol. s r.o. ‹#› Typy testů •Parametrické testy –testy o parametrech (střední hodnota, rozptyl) známých pravděpodobnostních modelů, předpokládají určitý typ rozdělení, ze kterého výběr pochází (obvykle normální) –drobné odchylky od předpokladů většinou nevadí –při výrazném porušení předpokladů můžeme získat nekorektní výsledky –citlivé na odlehlé hodnoty •Neparametrické test –určeny pro situaci, kdy nejsou splněny předpoklady parametrických testů –nemají předpoklady o typu rozdělení dat –testují jinou hypotézu o rozdělení základního souboru než je hypotéza o jeho parametru –výpočetně jednodušší s širším uplatněním –robustní vůči odlehlým hodnotám –vyváženo menší silou (vyšší pravděpodobnost nezamítnutí testované hypotézy) © 2022 ACREA CR, spol. s r.o. ‹#› Klasifikace neparametrických testů •jednovýběrové testy •dvouvýběrové testy –nezávislé výběry –závislé výběry •vícevýběrové testy –nezávislé výběry –závislé výběry • © 2022 ACREA CR, spol. s r.o. ‹#› Testové statistiky •robustní transformace dat –převedení číselných hodnot na pořadí –převedení párových rozdílů na pořadí –znaménka odchylek od prahové hodnoty –pořadí vzdáleností od prahové hodnoty •rozdělení testových statistik –známá diskrétní rozdělení –specifická rozdělení •speciální tabulky kritických hodnot –aproximace známými spojitými rozděleními –výpočet exaktní dosažené hladiny významnosti bez testové statistiky • – • • © 2022 ACREA CR, spol. s r.o. ‹#› Exaktní testy •nabízí přesnou hodnotu dosažené hladiny významnosti •předpoklady testu musí být dokonale splněny –využívá-li testovou statistiku, její rozdělení je přesně známé i pro malé počty pozorování –při výpočtu dosažené hladiny významnosti se nepoužívají žádné aproximace •praktické použití pouze u neparametrických testů –u parametrických testů je velmi obtížné dokonale splnit předpoklady •vhodné pouze pro malé soubory –Výpočetně náročné •u větších souborů lze řešit metodou Monte Carlo –simulační aproximace přesné signifikance –nelze považovat za exaktní test –Pro daný počet pozorování a okrajové podmínky se určí všechny dosažitelné výsledky a spočte se jejich pravděpodobnost za platnosti nulové hypotézy. –Dosažená hladina významnosti je součtem pravděpodobností výsledků stejných a více podporujících alternativní hypotézu než naměřená data. – • © 2022 ACREA CR, spol. s r.o. Jednovýběrové testy 6 © 2022 ACREA CR, spol. s r.o. ‹#› Jednovýběrový Kolmogorov-Smirnovův test •H0: data pochází z normálního rozdělení s danými parametry μ a σ2 •HA: data nepochází z normálního rozdělení s danými parametry μ a σ2 •Analogicky lze testovat i jiné spojité rozdělení např. rovnoměrné, exponenciální, Poisonovo •Známé spojité rozdělení není předpokladem, ale hypotézou, proto je test neparametrický. –hypotéza se netýká hodnot parametrů rozdělení •Lillieforsův test: varinta K-S testu pro situaci kdy parametry μ a σ2 jsou odhadnuty z naměřených dat. •Pro každou naměřenou hodnotu v datech spočti kumulativní relativní četnost. •Hodnoty empirické distribuční funkce z předchozího kroku porovnej s teoretickou distribuční funkcí testovaného rozdělení. •Testovou statistikou je maximální rozdíl empirické a teoretické distribuční funkce. •Kritické hodnoty pro malé počty pozorování jsou tabelovány. •Platí-li H0, statistika má asymptoticky speciální tabelované rozdělení. © 2022 ACREA CR, spol. s r.o. ‹#› Porovnání distribucí v jedn. výb. K-S testu © 2022 ACREA CR, spol. s r.o. ‹#› Mediánový test •Wilcoxonův znaménkový test •H0: veličina pochází z rozdělení symetrického podle mediánu •HA: veličina pochází z jiného rozdělení •Je-li rozdělení symetrické podle jiného mediánu platí také HA. •testované rozdělení není třeba specifikovat •neparametrická alternativa jedno výběrového t-testu –bez předpokladu normálního rozdělení ve výběru – –Tip: Test je ekvivalentní Wilcoxonově testu pro 2 závislé výběry, kde se testuje oproti konstantě. •Všechna pozorování vzestupně seřaď podle rozdílu od mediánu bez ohledu na znaménko a přiřaď jim pořadí •Sečti pořadí pozorování pod mediánem S- a nad mediánem S+. •Testovou statistikou S je menší ze součtů. •Kritické hodnoty pro malé počty jsou tabelovány. •Pro vyšší počty pozorování jsou hodnoty aproximovány normálním rozdělením. • © 2022 ACREA CR, spol. s r.o. ‹#› Výpočet statistik v mediánovém testu 4. 2. 1. 3. 6. 5. © 2022 ACREA CR, spol. s r.o. Nezávislé výběry 11 © 2022 ACREA CR, spol. s r.o. ‹#› Dvouvýběrový Kolmogorov-Smirnovův test •dva nezávislé výběry •H0: obě pozorované skupiny pochází ze stejného rozdělení •HA: každá ze dvou pozorovaných skupin pochází z jiného rozdělení •Liší-li se rozdělení jen svými parametry, považujeme je také za rozdílná, tj. platí HA. •testované rozdělení není třeba specifikovat •neparametrická alternativa t-testu pro dva nezávislé výběry –bez předpokladu normálního rozdělení ve výběrech –není třeba řešit shodu či neshodu rozptylů •Pro oba výběry spočti jejich empirické distribuční funkce podobně jako u jednovýběrového K-S testu. •Hodnoty obou empirických distribučních funkcí z předchozího kroku porovnej mezi sebou. •Testovou statistikou je maximální rozdíl obou empirických distribučních funkcí. •Kritické hodnoty pro malé počty pozorování jsou tabelovány •Platí-li H0, statistika má asymptoticky speciální tabelované rozdělení. • • © 2022 ACREA CR, spol. s r.o. ‹#› Porovnání distribucí ve dvouvýb. K-S testu © 2022 ACREA CR, spol. s r.o. ‹#› Mann-Whitneyův test •dva nezávislé výběry •H0: obě pozorované veličiny pochází ze stejného rozdělení •HA: každá ze dvou pozorovaných veličin pochází z jiného rozdělení •Liší-li se rozdělení jen svými parametry považujeme je také za rozdílná, tj. platí HA. •testované rozdělení není třeba specifikovat •neparametrická alternativa t-testu pro dva nezávislé výběry –bez předpokladu normálního rozdělení ve výběrech –není třeba řešit shodu či neshodu rozptylů • © 2022 ACREA CR, spol. s r.o. ‹#› Výpočet statistik v Mann- Whitneyově testu 1. 2. 3. 4. 5. 6. 7. © 2022 ACREA CR, spol. s r.o. ‹#› Kruskal-Wallisův test •Dva a více nezávislých výběrů •H0: Všechny pozorované skupiny pochází ze stejného rozdělení •HA: Alespoň jedna z pozorovaných skupin pochází z jiného rozdělení •Liší-li se rozdělení jen svými parametry považujeme je také za rozdílná, tj. platí HA. •testovaná rozdělení není třeba specifikovat •neparametrická alternativa ANOVA –bez předpokladu normálního rozdělení ve výběrech –není třeba řešit shodu či neshodu rozptylů • © 2022 ACREA CR, spol. s r.o. ‹#› Výpočet statistik v Kruskal-Wallisově testu 1. 2. 3. 4. 5. 6. 7. 9. 8. © 2022 ACREA CR, spol. s r.o. ‹#› Mediánový test •dva a více nezávislých výběrů •H0: všechny pozorované skupiny pochází z rozdělení se stejným mediánem •HA: alespoň jedna z pozorovaných skupin pochází z rozdělení s odlišným mediánem •testovaná rozdělení není třeba specifikovat •neparametrická alternativa ANOVA –bez předpokladu normálního rozdělení ve výběrech –není třeba řešit shodu či neshodu rozptylů •Všechna pozorování vzestupně seřaď bez ohledu na příslušnost do skupin a najdi společný medián. •V každé skupině spočti počet členů menších než medián a počet členů větších než medián. •Z počtů sestav kontingenční tabulku o rozměrech 2xk porovnávající výsledek srovnání se společným mediánem a skupinu. •Pro kontingenční tabulku spočti standardní Pearsonův chí-kvadrát test s (k-1) stupni volnosti. • © 2022 ACREA CR, spol. s r.o. ‹#› Výpočet statistik v mediánovém testu 1. 2. 3. 4. 5. 6. 7. 9. 8. medián © 2022 ACREA CR, spol. s r.o. Závislé výběry 20 © 2022 ACREA CR, spol. s r.o. ‹#› Znaménkový test •dva závislé výběry, párový test •H0: pravděpodobnost, že první veličina je větší než druhá, je 50% •HA: pravděpodobnost, že první veličina je větší než druhá, je jiná než 50% •rozdělení veličin není třeba specifikovat •neparametrická alternativa párového t-testu –bez předpokladu normálního rozdělení rozdílů • •Pro každý pár spočti, které pozorování je větší a podle toho přiřaď znaménko plus nebo mínus. •Spočti počet plusů resp. mínusů •Za platnosti H0 by se měl počet plusů resp. mínusů řídit binomickým rozdělením s p = 0,5. •Kritickými hodnotami jsou kvantily binomického rozdělení. •Pro vyšší počty pozorování lze binomické rozdělení aproximovat normálním. © 2022 ACREA CR, spol. s r.o. ‹#› Výpočet statistik ve znaménkovém testu auto čas A čas B rozdíl zn. 65 96 31 + 40 70 30 + 69 55 -14 - 33 67 33 + 56 81 25 + 63 82 19 + © 2022 ACREA CR, spol. s r.o. ‹#› Wilcoxonův test •dva závislé výběry, párový test •H0: obě pozorované veličiny pochází z rozdělení se stejným mediánem •HA: každá ze dvou pozorovaných veličin pochází z rozdělení s jiným mediánem •testované rozdělení není třeba specifikovat •neparametrická alternativa párového t-testu –bez předpokladu normálního rozdělení rozdílů • © 2022 ACREA CR, spol. s r.o. ‹#› Výpočet statistik ve Wilcoxonově testu auto čas A čas B rozdíl zn. abs. pořadí 65 96 31 + 31 5 40 70 30 + 30 4 69 55 -14 - 14 1 33 67 33 + 33 6 56 81 25 + 25 3 63 82 19 + 19 2 © 2022 ACREA CR, spol. s r.o. ‹#› Friedmanův test •dva a více závislých výběrů •H0: všechny pozorované veličiny pochází z rozdělení se stejným mediánem •HA: alespoň jedna z pozorovaných veličin pochází z rozdělení s jiným mediánem než ostatní •testované rozdělení není třeba specifikovat •neparametrická alternativa testování opakovaných měření –bez předpokladu normálního rozdělení pozorovaných veličin • © 2022 ACREA CR, spol. s r.o. ‹#› Výpočet statistik ve Friedmanově testu auto čas A čas B čas C poř. A poř. B poř. C 65 96 70 1 3 2 40 70 48 1 3 2 69 55 46 3 2 1 33 67 58 1 3 2 56 81 55 2 3 1 63 82 59 2 3 1 © 2022 ACREA CR, spol. s r.o. ‹#› Kendallův koeficient konkordance © 2022 ACREA CR, spol. s r.o. ‹#› Výpočet Kendallova koeficientu konkordance auto čas A čas B čas C poř. A poř. B poř. C součet 65 96 70 5 6 6 17 40 70 48 2 3 2 7 69 55 46 6 1 1 8 33 67 58 1 2 4 7 56 81 55 3 4 3 10 63 82 59 4 5 5 14 © 2022 ACREA CR, spol. s r.o. ‹#› Neparametrická kuchařka •jeden výběr = jeden sloupec dat •Jednovýběrový Kolmogorov-Smirnov •nezávislé výběry = jeden sloupec dat + identifikátor bloků datové matice –dva bloky •Mann-Whitney •Dvouvýběrový Kolmogorov-Smirnov –více než dva bloky •Kruskal-Wallis •mediánový •závislé výběry = několik sloupců dat –dva sloupce •Wilcoxon •znaménkový –více než dva sloupce •Friedman •Kendall