© 2022 ACREA CR, spol. s r.o. Regresní analýza © 2022 ACREA CR, spol. s r.o. Úlohy a otázky •Lze vyjádřit vztah proměnné X (nebo množiny proměnných X1 , … , Xk) a proměnné Y pomocí vhodně volené rovnice? •Má tento vztah explanační charakter? • •hodnota Y důsledkem hodnoty X (hodnot X1 , … , Xk)? •Reprezentují proměnné Xk příčiny pro důsledek Y? • •Obsahuje X (nebo množina proměnných X1 , … , Xk) nějakou informaci o Y a jak vyjádřit přenos takové informace? •Můžeme tuto informaci použít pro predikci? • © 2022 ACREA CR, spol. s r.o. Internet prodlužuje život •nesmyslná interpretace •jevy spolu nesouvisí odvozeným způsobem • •společná příčina – obecný rozvoj země • •nesmyslnost odhalena jen na základě logické úvahy © 2022 ACREA CR, spol. s r.o. Regresní analýza: jednosměrný vztah •široká terminologie –nezávislá – závislá –vysvětlující – vysvětlovaná –vstupní – výstupní (cílová) –prediktor – predikant –určující – určená • Směr vztahu je volba uživatelská volba nezávislá proměnná –> závislá proměnná <– chyba X Y E u korelace: jednosměrný nebo symetrický vztah u regrese: jednosměrný vztah © 2022 ACREA CR, spol. s r.o. Popis vztahu rovnicí •chyba rovnice –zahrnuje neznámé vlivy na Y –náhodné číslo s průměrem 0 a rozptylem se2 • Y = f(X) + e směr vztahu model – rovnice závisející na neznámých koeficientech rovnice rozloží hodnotu Y na dvě části: a)model = převod z X b)náhodná chyba/zbytek, který se neúčastní převodu model vztahu Model (rovnici) volí uživatel. Regresní metoda určuje koeficienty (parametry) rovnice. proměnných X může být více © 2022 ACREA CR, spol. s r.o. Chyba rovnice •chování Y nevysvětlené modelem •náhodné vlivy –při měření, zjišťování –při chování –ze své podstaty nelze v modelu odstranit •tvar funkce –závislost je tvořena jinou funkcí (se stejnými proměnnými) –např. logaritmická nebo kvadratická funkce místo přímky –špatný tvar lze teoreticky zjistit a opravit •neznámé vlivy –všechny další veličiny, které mají vliv na Y –nemáme v datech –teoreticky lze odstranit zjištěním chybějících proměnných a jejich doplněním do modelu •mezi náhodnými a neznámými vlivy nezle v praxi rozhodnout => v regresní teorii se vše zahrnuje pod náhodnou odchylku Náhodná chyba •má nulový průměr pro každou hodnotu X –zajistí vhodná funkce odpovídající skutečnému modelu – obvykle neznámý –nulový průměr odhadu chyb na celém souboru zajistí vždy konstantní člen v modelu b0 •má stejný rozptyl pro každou hodnotu X – kontroluje se v datech Konstantní člen vždy do modelu zahrňte ! © 2022 ACREA CR, spol. s r.o. Model přímky – obvyklá volba očekáváno pro dané X není obsaženo v X rovnice přímky chyba očekáváme, že chyba je v průměru nulová predikční rovnice rovnice datového procesu očekávaná hodnota Y pro dané X Ŷ =E(Y|X) Ŷ = b0 + b1 X Y = b0 + b1 X + e Y = Ŷ + e koeficienty © 2022 ACREA CR, spol. s r.o. Význam koeficientů přímky •b1 = regresní koeficient – koeficient úměry vlivy X na Y u každého jednoho případu –b1 > 0 – přímka má růstový/stoupavý trend •kladný trend •s rostoucím X roste Y – b1 < 0 – pří –přímka má ztrátový/klesavý trend •záporný trend •s rostoucím X klesá Y –b1 = 0 – přímka je rovnoběžná s osou X, absence trendu •s rostoucím X se Y nemění: nulový trend •hodnota Y na X nezávisí •b0 = konstantní člen (posunutí)– hodnota Y pro nulové X nebo koeficient rovnoměrné změny pro každý případ bez ohledu na jeho X hodnotu © 2022 ACREA CR, spol. s r.o. Metoda nejmenších čtverců (MNČ) f(X) =b0 + b1X hodnota X e E(Y|X) = Ŷ = b0 + b1X hodnota Y © 2022 ACREA CR, spol. s r.o. Vlastnosti přímky získané MNČ •přímka minimalizuje součet čtvercových odchylek •součet residuí je nula •přímka prochází centroidem –bod, kde všechny proměnné jsou rovné svým průměrům –průměr skutečných a vyrovnaných hodnot je stejný průměrná hodnota X průměrná hodnota Y bod průměrů centroid © 2022 ACREA CR, spol. s r.o. Odhad na základě výběru •získané koeficienty a vše z nich vyplývající jsou jen odhadem skutečných koeficientů •skutečné koeficienty se týkají základního souboru (často hypotetický a nedosažitelný) •pracujeme s výběrem ze základního soubor => získáme jen odhad koeficientů •jiný výběr by vedl jinému odhadu •odhad chyby se nazývá residuum –v teorii je termíny nutno důsledně rozlišovat • Vše je jen odhad! Y = b0 + b1 X + e => Y = b0 + b1 X + e skutečný ale neznámý vztah v základním souboru odhad vztahu na základě výběru © 2022 ACREA CR, spol. s r.o. Vlastnosti odhadu MNČ •lineární odhad –výpočetně výhodné –odhad koeficientů i vyrovnaná hodnota se dá vyjádřit jako vážený součet hodnot Y pevně danými koeficienty –zajišťuje přibližnou normalitu i pro nenormální data –odhad závisí na každé hodnotě Y • b = SciYi Ŷ= SdiYi •nevychýlený a konzistentní odhad parametrů rovnice –odhad je rozptýlen kolem skutečných parametrů –s růstem parametrů se odhad blíží ke skutečným hodnotám •nejlepší odhad –MNČ dává odhad s nejmenším rozptylem –pro daný výběr a model nelze odhad spočítat lépe –velikost rozptylu je úměrná se/Ö n – je závislá na schopnosti uživatele najít dobrý model a získat dostatek případů pro odhad Best Linear Unbiased Estimator © 2022 ACREA CR, spol. s r.o. Koeficient determinace •vychází se z rozkladu rozptylu Y •ukazuje, jakou část rozptylu Y vysvětluje rozptyl Ŷ neboli model –zbytek rozptylu Y je rozptyl residuí •popisuje sílu vztahu modelu a závislé proměnné – Ŷ a Y –je-li vysvětlujících proměnných X více, popisuje jejich společné působení na Y •R2 = čtverec korelačního koeficientu r(Y, Ŷ) => R2 = r(Y, Ŷ)2 –v modelu s jednou proměnnou X platí také R2 = r(Y, X)2 •často se vyjadřuje v procentech •nezávisí na počtu případů, ale na kvalitě vztahu v základním souboru • R2 = sŶ2 / sY2 = 1 – se2/ sY2 = 1 – ESS / TSS = MSS/TSS © 2022 ACREA CR, spol. s r.o. Testování významnosti modelu: ANOVA •vychází se z rozkladu rozptylu Y •F - test – kritérium pro zjištění existence vztahu •testuje existenci vztahu modelu a závislé proměnné – Ŷ a Y –je-li vysvětlujících proměnných X více, testuje jejich společné působení na Y •závisí na počtu případů a na kvalitě vztahu v základním souboru –čím více případů tím spíše se H0 zamítne •velmi mírný – H0 zamítnuta takřka vždy – např. pro přímku a 50 případů je významný vztah s R2=7,8% • F(p-1, n-p) = [MSS/(p-1)]/[ESS/(n-p)] = R2 / (1- R2) * (n-p)/(p-1) dosažená významnost F = a* n = počet případů p = počet regresních koeficientů F(p-1,n-p) – rozdělení F se stupni volnosti p-1 a n-p H0: bi = 0 pro všechna X H1: bi ≠ 0 alespoň pro jedno X © 2022 ACREA CR, spol. s r.o. Testy významnosti koeficientů •jsou založeny na směrodatné odchylce residuí se •testuje existenci vztahu proměnné nezávislé a závislé proměnné – X a Y –každá proměnná X se testuje zvlášť •závisí na počtu případů a na kvalitě vztahu v základním souboru –čím více případů tím spíše se H0 zamítne •nezamítnutá H0 znamená slabý (neexistující) vztah – proměnnou X z modelu vyloučíme • t (n-p) = bi/ sbi = bi/ [se*cn(X)] dosažená významnost t = a* n = počet případů p = počet regresních koeficientů sbi = směrodatná odchylka odhadu b cn(x) = hodnota pevně určená proměnnými X a počtem případů t(n-p) – rozdělení t s n-p stupni volnosti H0: bi = 0 H1: bi ≠ 0 pro rovnici s jedním prediktorem t2 = F © 2022 ACREA CR, spol. s r.o. Normalita residuí •je podstatná jen pro testování a intervaly spolehlivosti •není kritická, pro větší soubory (>50) je normalita odhadu b zaručena na základě centrálního limitního teorému –testy a intervaly pro parametry jsou v pořádku, i když residua nejsou normálně rozložena –intervaly pro individuální hodnoty jsou ale zkreslené •možnost otestovat – nejvhodnější jsou studentizovaná residua (stejný rozptyl) –histogram –Q-Q, P-P graf –testy normality – s rostoucím počtem případů zamítají i nepatrné odchylky • © 2022 ACREA CR, spol. s r.o. Testy významnosti koeficientů – ukázka •vztah výšky otce a syna je statisticky významný (Signifikance = 0,00) –průměrná výška synů dvou otců, jejichž výška se liší o 1 cm, se liší o 0,45 cm •úrovňová konstanta je statisticky významná (Signifikance = 0,00) –průměrná výška syna otce, který by měřil 0 cm, by byla 97 cm –v tomto případě není konstanta věcně smysluplná •skutečný koeficient vztahu výšek leží v intervalu (0,277;0,627) s pravděpodobností 95% –interval neobsahuje 0 – ekvivalentní zamítnutí hypotézy o nulovosti koeficientu •u jednoduché lineární regrese s jedním prediktorem je Beta = r •standardizovaný koeficient regrese je roven korelačnímu koeficientu obou proměnných © 2022 ACREA CR, spol. s r.o. Lineární regresní analýza – více prediktorů •přímé zobecnění jednoduché regrese •další členy jsou přidány prostým přičtením, každá člen má svůj koeficient bk •mohou se přidávat i libovolné pevně dané funkce proměnných X –X2, X3, 1/X, ln(X), X1X2, atd. –modelem je křivka obecnější než přímka (rovina) –speciální variantou jsou proměnné typu 0 - 1 •linearita – model je součtem jednotlivých komponent bkf(Xk) •Interpretace analogická jako u jednoduché regrese Y = f(X1, X2, X3, ... Xk) + e E(Y|X) = Ŷ = f(X1, X2, X3, ... Xk) © 2022 ACREA CR, spol. s r.o. R2,R a R2adj •ukazuje, jakou část rozptylu Y vysvětluje rozptyl Ŷ neboli model –zbytek rozptylu Y je rozptyl residuí •koeficient vícenásobné korelace R – korelační koeficient mezi Y a Ŷ (lineární kombinace nezávislých proměnných X) –lineární kombinace (odhadnutá rovnice) získaná MNČ maximalizuje korelační koeficient s Y •R2 – čtverec vícenásobného korelačního koeficientu R2 = R(Y, Ŷ)2 •R2 vždy roste s přidáním nové proměnné nebo další funkce existujících proměnných (zvětšení modelu) –řídit se pouze R2 by vedlo k nesmyslně velkým modelům •R2adj – modifikované R2 –samotné přidání proměnné je penalizováno snížením koeficientu –penalizace je slabá, R2adj po přidání proměnné téměř vždy vroste • R2adj = R2 - (1- R2)(p-1)/(n-p) n = počet případů p = počet regresních koeficientů © 2022 ACREA CR, spol. s r.o. Výběr proměnných •obvykle ne všechny proměnné X v datech lze použít v modelu •proměnné X mohou být korelovány – nelze je obě použít v jednom modelu, jejich vliv se vzájemně oslabuje (vysoká hodnota signifikance) •často lze vytvořit více podobně kvalitních modelů •metody pro automatické budování modelů –postupné budování modelů podle kritérií založených na testech vlivu –sekvenční metody – další krok je závislý na předcházejících –zdaleka neprozkoumávají všechny možnosti –nalezený model není optimální (nepoužívá se kritérium optimality) –různé metody mohou vést k různým modelům –při větším počtu proměnných (asi >20) nemusejí vést ke smysluplným modelům –přijetí nebo modifikace nalezeného modelu je vždy volba uživatele © 2022 ACREA CR, spol. s r.o. Automatický výběr proměnných •FORWARD – postupné zařazování prediktorů –začíná s modelem obsahujícím jen konstantu –postupné zařazování prediktorů podle schopnosti snížit residuální rozptyl modelu – je požadována určitá míra snížení (volba uživatele) –vstup proměnné do modelu je silně závislý na proměnných dříve do modelu přidaných –přesnost modelu roste –není zaručeno, že všechny proměnné v modelu jsou signifikantní •BACKWARD – postupné vyřazování prediktorů –začíná s plným modelem –postupně jsou odstraňovány proměnné, jejichž odstranění zvýší residuální rozptyl nejméně – je stanovena mez, kterou nesmí zvýšení překročit (volba uživatele) –přesnost modelu klesá –není vhodná, pokud je výchozí model příliš veliký •STEPWISE – kombinace obou –začíná s modelem obsahujícím jen konstantu –přidává proměnné metodou FORWARD –po každém přidání zkouší metodou BACKWARD odstranit dříve přidané proměnné –nejkomplexnější © 2022 ACREA CR, spol. s r.o. Forward – ukázka •FORWARD roste klesá © 2022 ACREA CR, spol. s r.o. Backward – ukázka •BACKWARD klesá roste © 2022 ACREA CR, spol. s r.o. Doporučení při budování modelu •využijte všech teoretických znalostí modelované problematiky •prozkoumejte datovou situaci –korelační matice nezávislých proměnných –bodové grafy všech nezávislých proměnných mezi sebou i se závislou proměnnou •z korelovaných nezávislých proměnných zvolte do modelu jednu, případně proměnné vhodně zkombinujte (např. vážený průměr) •proměnné slabě korelované se závislou můžete z modelování vyloučit •není-li vysvětlený rozptyl přijatelný, vyzkoušejte i funkce vysvětlujících proměnných (pozor na smysluplnost) •kontrolujte statistickou významnost proměnných v modelu •při automatickém budování modelu vyzkoušejte více metod a vždy zhodnoťte věcnou smysluplnost modelu, nalezené modely případně upravte •vyzkoušejte více variant modelu a vyberte nejvhodnější i s ohledem na interpretovatelnost modelu