Obsah

Typové úlohy hledání výjimek a odlišností

Typové úlohy lze v některých případech chápat jako hledání zajímavých výjimek a odlišností. Dále jsou tyto možnosti stručně naznačeny. Poznamenejme, že úlohy týkající se hledání vhodných podmatic lze chápat jako úlohy subgroup discovery. Podobně, dále uvedené úlohy týkající se asociačních pravidel a výjimek patří do oblasti exception rules mining, viz též informace uvedené zde.

Typové úlohy hledání výjimek a odlišností se týkají

Histogramy

Pro histogramy jsou popsány následující typové úlohy na hledání výjimek a odlišností:

Jiný tvar histogramu na podmatici

Úlohy tohoto typu lze charakterizovat takto:

Dále jsou uvedeny čtyři příklady ukazující možnosti hledání odlišností k tvaru histogramu na celé matici dat. Všechny příklady jsou již prezentovány jako příklady aplikací procedury CF-Miner. První dva příklady se týkají histogramu atributu PDenTydne matice dat Hotel. Histogram ukazuje procentuální podíl hostů přijíždějících do hotelu v jednotlivých dnech týdne, je uveden na následujícím obrázku.

První příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme podmatici Hotel/χ na níž jeden sloupec tohoto histogramu významně převyšuje ostatní sloupce. Taková situace je naznačena v levé části následujícího obrázku. Příslušné aplikace procedury CF-Miner jsou popsány zde, zde a zde, obecný postup je zde.

Druhý příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme pokládáme podmatici Hotel/χ na níž mají všechny sloupce tohoto histogramu přibližně stejnou výšku. Taková situace je naznačena v pravé části následujícího obrázku. Příslušné aplikace procedury CF-Miner jsou popsány zde a zde, obecný postup je zde.

Další dva příklady se týkají histogramu atributu DHodnoceni matice dat Hotel. Histogram ukazuje procentuální podíl jednotlivých kategorií hodnocení, je uveden na následujícím obrázku (součet podílů je 101 díky zaokrouhlovací chybě).

Třetí příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme podmatici Hotel/χ na níž je tento histogram rostoucí. Taková situace je naznačena v levé části následujícího obrázku. Příslušné aplikace procedury CF-Miner jsou popsány příklady jsou zde a zde, obecný postup je zde. Čtvrtý příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme pokládáme podmatici Hotel/χ na níž je tento histogram klesající. Taková situace je naznačena v pravé části obrázku. Příslušné aplikace procedury CF-Miner jsou popsány zde, zde a zde.

Jiný tvar histogramu na podmatici podmatice

Úlohy tohoto typu lze charakterizovat takto:

Dále je uveden příklad ukazující možnosti hledání podmatic M/ω∧κ na nichž má histogram jiný tvar než na podmatici M/ω. Jedná se o příklad již prezentovaný jako příklad aplikace procedury CF-Miner. Týká se atributu Year matice dat Accidents. Histogram v levé části následujícího obrázku se týká celé matice Accidents a ukazuje počty dopravních nehod v letech 2005 až 2015. Vidíme, že až na jednu výjimku počty klesají. Obrázek v pravé části ukazuje, že počty nehod na podmatici Accidents/ω týkající se malých motocyklů v městských oblastech rostou. Platí ω = . Zajímá nás tedy, zda existuje podmatice Accidents/ω∧κ na které histogram atributu Year klesá v posledních čtyřech letech (tedy tři roky po sobě). Příklad takového histogramu je na následujícím obrázku. Podrobnosti k příkladu jsou zde.

Velká vzdálenost histogramů na podmatici a matici

Úlohy tohoto typu lze charakterizovat takto:

Dále je uveden příklad ukazující možnosti hledání podmatic M/χ takových, že vzdálenost histogramu na M/χ a histogramu na M je velká. Jedná se o příklad již prezentovaný jako příklad aplikace procedury CF-Miner. Týká se histogramu atributu DHodnoceni matice dat Hotel. Histogram ukazuje procentuální podíl jednotlivých kategorií, je uveden v levé části následujícího obrázku (součet podílů je 101 díky zaokrouhlovací chybě). Histogram v pravé části obrázku se týká jisté podmatice M/χ. Vzdálenost těchto histogramů je |29-38| + |48-15| + |24-47| = 65. Příklad uvedený zde se týká situace, kdy hledáme všechny podmatice matice Hotel, pro které platí, že vzdálenost histogramu atributu DHodnocení na podmatici od histogramu tohoto atributu na celé matici dat Hotel je nejméně 50.

Velká vzdálenost daného histogramu na podmatici podmatice

Text bude doplněn.

Různé tvary histogramu atributu A pro různé kategorie atributu B

Úlohy tohoto typu lze charakterizovat takto:

Příklad uvedený zde se týká odlišností histogramu atributu DHodnoceni mezi různými státy - kategoriemi atributu HStat matice dat Hotel. Jedná se o příklad již prezentovaný jako příklad aplikace procedury SDCF-Miner. Požadujeme, aby pro jeden stát histogram rostl a pro druhý stát aby klesal, je použit parametr CONDITION. V levé části následujícího obrázku je ukázka histogramu DHodnoceni/χ∧HStat(ČR) který roste, v pravé části je ukázka histogramu DHodnoceni/χ∧HStat(Německo), který klesá.

Velká vzdálenost histogramů atributu A pro různé kategorie atributu B

Text bude doplněn, jedná se o aplikaci procedury SDCF-Miner podobnou předchozí ale s jinými SDCF-kvantifikátory.

Výjimky týkající se histogramů pro podíl podmínky na kategoriích

Analogické k výše uvedeným možnostem pro histogramy týkající se frekvencí, bude doplněno.

Asociační pravidla

Pro asociační pravidla jsou k dispozici následující typové úlohy na hledání výjimek a odlišností:

Asociační pravidlo - výjimka z histogramu

Úlohy tohoto typu lze charakterizovat takto:

Dále jsou uvedeny dva příklady ukazující možnosti hledání asociačních pravidel - výjimek z histogramu. Oba příklady jsou již prezentovány jako příklady aplikací procedury 4ft-Miner. První příklad se týká hledání asociačních pravidel φ → A(ai) takových, že jejich konfidence je alespoň čtyřikrát nižší, než odpovídá výšce sloupce ai v histogramu na celé matici dat. Taková situace je naznačena v levé části předcházejícího obrázku, podrobnosti jsou k dispozici zde.

Druhý příklad se týká hledání asociačních pravidel φ → A(ai) takových, že jejich konfidence je alespoň je alespoň dvakrát vyšší, než odpovídá výšce sloupce ai v histogramu na dané podmatici dat. Taková situace je naznačena v pravé části předcházejícího obrázkupodrobnosti jsou k dispozici zde.

Výrazná změna hodnoty liftu prodloužením antecedentu

Úlohy tohoto typu lze charakterizovat takto:

Jako příklad takové úlohy uvádíme úlohu týkající se dat Accidents a problému: Existuje podmínka P, dodatečná podmínka D a závažnost Z nehody takové, že zároveň platí:

Ukázka řešení takové úlohy je uvedena zde.

Násobná změna konfidence pravidla dodatečnou podmínkou

Úlohy tohoto typu lze charakterizovat takto:

Takové úlohy lze řešit pomocí procedury SD4ft-Miner. Uvedenou úlohu převedeme na úlohu hledání dvojice podmíněných asociačních pravidel True ≈ ψ/φ a True ≈ ψ/φ∧ω takových, že konfidence podmíněného asociačního pravidla True ≈ ψ/φ∧ω je násobně vyšší nebo nižší, než je konfidence podmíněného asociačního pravidla True ≈ ψ/φ. True značí identicky pravdivý booleovský atribut.

Dále jsou uvedeny dva příklady ukazující možnosti hledání dvojic podmíněných asociačních pravidel
True ≈ ψ/φ a True ≈ ψ/φ∧ω takových, že konfidence True ≈ ψ/φ∧ω je násobně vyšší nebo nižší, než je konfidence True ≈ ψ/φ. Oba příklady se týkají dat Hotel a jsou již prezentovány jako příklady aplikací procedury SD4ft-Miner.

První příklad se týká hledání asociačních pravidel True ≈ ψ/φ∧ω takových, že jejich konfidence nejméně 1,5 krát vyšší, než je konfidence podmíněného asociačního pravidla True ≈ ψ/φ. Podrobnosti o příkladu jsou uvedeny zde.

Druhý příklad se týká hledání asociačních pravidel True ≈ ψ/φ∧ω takových, že jejich konfidence je rovna maximálně 0,75 konfidence podmíněného asociačního pravidla True ≈ ψ/φ. Podrobnosti o příkladu jsou uvedeny zde.

Oba příklady lze také chápat jako úlohy na akční pravidla, které ale nejsou řešeny řešena pomocí procedury Ac4ft-Miner.

Různé hodnoty charakteristiky pravidla pro podmatice dané různými kategoriemi atributu

Úlohy tohoto typu lze charakterizovat takto:

Takové úlohy lze řešit pomocí procedury SD4ft-Miner. Dále je poukázáno na čtyři úlohy uvedeného typu jejichž řešení je již prezentováno pomocí příkladů aplikací procedury SD4ft-Miner.

První tři úlohy se týkají atributu HStat dat Hotel.

První úloha se týká hledání dvojic států, pro které je pro některé skupiny hostů rozdíl procentuálních podílů nějaké kombinace výsledků v dotazníku větší než daná mez. Pro tuto úlohu jsou k dva příklady. První je popsán v této wiki, je k dispozici i obecný postup pro řešení podobných úloh. Druhý příklad je popsán v pdf-souboru dostupném zde. Ve druhém příkladu je také ukázáno, že tuto úlohu nelze řešit pomocí procedury 4ft-Miner.

Druhá úloha se týká hledání slovanských států, pro které je pro některé skupiny hostů rozdíl procentuálního podíl nějaké kombinace výsledků v dotazníku od téhož podílu v německy mluvících státech větší než daná mez. Pro tuto úlohu je k dispozici příklad popsaný v pdf-souboru dostupném zde.

Třetí úloha se týká hledání dvojic států, pro které je pro některé skupiny hostů podíl procentuálních podílů nějaké kombinace výsledků v dotazníku větší než daná mez. Pro tuto úlohu je k dispozici příklad popsaný v této wiki a také obecný postup pro řešení podobných úloh.

Čtvrtá úloha se týká dat Accidents a řeší otázku rozdílů mezi muži a ženami co se týče relativní četnosti nehod s různou závažností pro různé kombinace charakteristiky řidiče a okolností nehody. Podrobnosti jsou uvedeny zde.

Jiné charakteristiky pravidla na podmatici

Jedná se o úlohu na podmíněná asociační pravidla. Poznamenejme, že podmíněná asociační pravidla nejsou definována v souvislosti s algoritmem apriori. Tato část bude doplněna. Prozatím je k dispozici obecná úloha na podmíněná pravidla, viz zde.

Jiné charakteristiky pravidla na podmatici podmatice

Jedná se o úlohu na podmíněná asociační pravidla s fixovanou částí podmínky. Tato část bude doplněna.

Kontingenční tabulky

Pro kontingenční tabulky jsou k dispozici následující typové úlohy na hledání výjimek a odlišností:

Bude doplněno, prozatím lze využít příklady aplikací procedury KL-Miner, viz zde.