Dolování dat Statistika v kontextu dolování dat Jan Górecki Název prezentace Název projektu Rozvoj vzdělávání na Slezské univerzitě v Opavě Registrační číslo projektu CZ.02.2.69/0.0./0.0/16_015/0002400 Logolink_OP_VVV_hor_barva_cz Obsah přednášky •Typy statistických metod •Kontingenční tabulky •Regresní analýza •Diskriminační analýza •Shluková analýza mineiro2.jpg •A formal science that deals with collection, analysis, interpretation, explanation and presentation of (usually numerical) data. Statistika csvukrs •Deskripční – cílem je popsat základní charakteristiky daných dat •Konfirmační – cílem je potvrdit resp. vyvrátit zkoumanou hypotézu •Explorační – cílem je “objevit” možnou hypotézu, která je podporovaná daty Statistické metody csvukrs Kontingenční tabulky •zjišťování vztahu mezi dvěma kategoriálními veličinami Úvěr ano Úvěr ne å Vysoký příjem a11 a12 r1 Nízký příjem a21 a22 r2 å s1 s2 n čtyřpolní tabulka csvukrs •c2 test: • • c2 = • • • Kontingenční tabulky pro c2 ³ c2(R-1)(S-1)(a) předpokládáme závislost mezi X a Y csvukrs •zjišťování funkční závislosti jedné numerické (spojité) veličiny na jiných numerických veličinách • •lineární regrese pro dvě veličiny x a y: •y = β1x + β0 + e. • •Hodnoty koeficientů (β1 a β0) se zjišťují pomocí: •Metoda nejmenších čtverců Regresní analýza T3-linearni regrese csvukrs •Tato metoda minimalizuje rozdíly mezi pozorovanou hodnotou y a očekávanou hodnotou ŷ=f(x) spočítanou v tomto případě na základě funkce β1x + β0 • • • • • • • • • • Metoda nejmenších čtverců •uvažujeme druhou mocninu (kvadrát, čtverec) těchto rozdílů: (y - f(x))2 csvukrs •pro odlišení příkladů patřících do různých tříd • •ke každé třídě (hodnotě nominální veličiny) cj, j=1,…,R existuje (diskriminační) funkce fj taková, že •fj(x) = maxi fi(x) •právě když příklad x=[x1, x2, …, xv] patří do třídy cj. Diskriminační analýza csvukrs f1 i f2 stejný rozptyl T3-diskriminace_stejneSD csvukrs f1 a f2 různý rozptyl T3-diskriminace_ruzneSD csvukrs Lineární diskriminace do dvou tříd fj = q0 j + q1 j x1 + q2 j x2 + …. + qv j xv j=1,2 f(x) = f1(x) – f2(x). f(x) = 0 csvukrs Linearní a kvadratická diskriminační analýza https://scikit-learn.org/stable/modules/lda_qda.html Shluková analýza csvukrs Hammingova vzdálenost csvukrs Čebyševova vzdálenost csvukrs Rozdíl mezi dH(x1,x2), dE(x1,x2) a dC(x1,x2) csvukrs •Výše uvedené míry vzdálenosti závisí na měřítku veličin. Proto je třeba veličiny normovat •Konkrétní hodnota se obvykle dělí nějakou jinou hodnotou: –směrodatnou odchylkou –rozpětím (max-min). Normování csvukrs •hierarchické shlukování, •metoda K-středů (K-means clustering). • Metody shlukové analýzy csvukrs Algoritmus hierarchického shlukování Inicializace 1.urči vzájemné vzdálenosti mezi všemi příklady 2.zařaď každý přiklad do samostatného shluku hlavní cyklus 1. dokud je vice než jeden shluk 1.1. najdi dva navzájem nejbližší shluky a spoj je 1.2. spočítej pro tento nový shluk jeho vzdálenost od ostatnich shluků Hierarchické shlukování Při hierarchickém shlukování se obvykle postupuje metodou „zdola nahoru“. Začíná se tedy v situaci, kdy každý příklad tvoří jeden samostatný shluk. Postupně se pak jednotlivé shluky spojují, až skončíme s jedním shlukem obsahujícím všechny příklady csvukrs Vzdálenost mezi shluky csvukrs •Proces hierarchického shlukování bývá zachycen v podobě tzv. dendrogramu. Ten ukazuje (odspoda nahoru) postupné spojováni shluků počínaje očíslovanými příklady. Optimální počet shluků zde není předem znám, odvodíme ho až rozborem výsledků – tak, že někde dendrogram „rozřízneme“ • • • • • Dendrogram csvukrs •1. urči centroidy pro všechny shluky v aktuálním rozkladu (v prvním opakování zcela náhodně) •2. pro každý příklad x –2.1. urči vzdálenosti d(x,ck), k=1,…,K kde ck je centroid k-tého shluku –2.2. urči centroid cl tak, že d(x,cl) = mink d(x,ck) –2.3. není-li x součástí shluku l (k jehož centroidu cl má nejblíže) přesuň x do shluku l •3. došlo-li k nějakému přesunu potom jdi na 1, jinak konec • Metoda K -středů csvukrs Ukázka algoritmu K-středů csvukrs Děkuji za pozornost Některé snímky převzaty od: prof. Ing. Petr Berka, CSc. berka@vse.cz