Úvod
Data Hotel
Další data
Typové úlohy
Všechny řešené příklady
Řešené příklady s detaily na wiki
Histogramy na wiki
Asociační pravidla na wiki
Kontingenční tabulky na wiki
Dvojice asociačních pravidel
Úvod
Data Hotel
Další data
Typové úlohy
Všechny řešené příklady
Řešené příklady s detaily na wiki
Histogramy na wiki
Asociační pravidla na wiki
Kontingenční tabulky na wiki
Dvojice asociačních pravidel
Typové úlohy lze v některých případech chápat jako hledání zajímavých výjimek a odlišností. Dále jsou tyto možnosti stručně naznačeny. Poznamenejme, že úlohy týkající se hledání vhodných podmatic lze chápat jako úlohy subgroup discovery. Podobně, dále uvedené úlohy týkající se asociačních pravidel a výjimek patří do oblasti exception rules mining, viz též informace uvedené zde.
Typové úlohy hledání výjimek a odlišností se týkají
Pro histogramy jsou popsány následující typové úlohy na hledání výjimek a odlišností:
Úlohy tohoto typu lze charakterizovat takto:
Dále jsou uvedeny čtyři příklady ukazující možnosti hledání odlišností k tvaru histogramu na celé matici dat. Všechny příklady jsou již prezentovány jako příklady aplikací procedury CF-Miner. První dva příklady se týkají histogramu atributu PDenTydne matice dat Hotel. Histogram ukazuje procentuální podíl hostů přijíždějících do hotelu v jednotlivých dnech týdne, je uveden na následujícím obrázku.
První příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme podmatici Hotel/χ na níž jeden sloupec tohoto histogramu významně převyšuje ostatní sloupce. Taková situace je naznačena v levé části následujícího obrázku. Příslušné aplikace procedury CF-Miner jsou popsány zde, zde a zde, obecný postup je zde.
Druhý příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme pokládáme podmatici Hotel/χ na níž mají všechny sloupce tohoto histogramu přibližně stejnou výšku. Taková situace je naznačena v pravé části následujícího obrázku. Příslušné aplikace procedury CF-Miner jsou popsány zde a zde, obecný postup je zde.
Další dva příklady se týkají histogramu atributu DHodnoceni matice dat Hotel. Histogram ukazuje procentuální podíl jednotlivých kategorií hodnocení, je uveden na následujícím obrázku (součet podílů je 101 díky zaokrouhlovací chybě).
Třetí příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme podmatici Hotel/χ na níž je tento histogram rostoucí. Taková situace je naznačena v levé části následujícího obrázku. Příslušné aplikace procedury CF-Miner jsou popsány příklady jsou zde a zde, obecný postup je zde. Čtvrtý příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme pokládáme podmatici Hotel/χ na níž je tento histogram klesající. Taková situace je naznačena v pravé části obrázku. Příslušné aplikace procedury CF-Miner jsou popsány zde, zde a zde.
Úlohy tohoto typu lze charakterizovat takto:
Dále je uveden příklad ukazující možnosti hledání podmatic M/ω∧κ na nichž má histogram jiný tvar než na podmatici M/ω. Jedná se o příklad již prezentovaný jako příklad aplikace procedury CF-Miner. Týká se atributu Year matice dat Accidents. Histogram v levé části následujícího obrázku se týká celé matice Accidents a ukazuje počty dopravních nehod v letech 2005 až 2015. Vidíme, že až na jednu výjimku počty klesají. Obrázek v pravé části ukazuje, že počty nehod na podmatici Accidents/ω týkající se malých motocyklů v městských oblastech rostou. Platí ω = . Zajímá nás tedy, zda existuje podmatice Accidents/ω∧κ na které histogram atributu Year klesá v posledních čtyřech letech (tedy tři roky po sobě). Příklad takového histogramu je na následujícím obrázku. Podrobnosti k příkladu jsou zde.
Úlohy tohoto typu lze charakterizovat takto:
Dále je uveden příklad ukazující možnosti hledání podmatic M/χ takových, že vzdálenost histogramu na M/χ a histogramu na M je velká. Jedná se o příklad již prezentovaný jako příklad aplikace procedury CF-Miner. Týká se histogramu atributu DHodnoceni matice dat Hotel. Histogram ukazuje procentuální podíl jednotlivých kategorií, je uveden v levé části následujícího obrázku (součet podílů je 101 díky zaokrouhlovací chybě). Histogram v pravé části obrázku se týká jisté podmatice M/χ. Vzdálenost těchto histogramů je |29-38| + |48-15| + |24-47| = 65. Příklad uvedený zde se týká situace, kdy hledáme všechny podmatice matice Hotel, pro které platí, že vzdálenost histogramu atributu DHodnocení na podmatici od histogramu tohoto atributu na celé matici dat Hotel je nejméně 50.
Text bude doplněn.
Úlohy tohoto typu lze charakterizovat takto:
Příklad uvedený zde se týká odlišností histogramu atributu DHodnoceni mezi různými státy - kategoriemi atributu HStat matice dat Hotel. Jedná se o příklad již prezentovaný jako příklad aplikace procedury SDCF-Miner. Požadujeme, aby pro jeden stát histogram rostl a pro druhý stát aby klesal, je použit parametr CONDITION. V levé části následujícího obrázku je ukázka histogramu DHodnoceni/χ∧HStat(ČR) který roste, v pravé části je ukázka histogramu DHodnoceni/χ∧HStat(Německo), který klesá.
Text bude doplněn, jedná se o aplikaci procedury SDCF-Miner podobnou předchozí ale s jinými SDCF-kvantifikátory.
Analogické k výše uvedeným možnostem pro histogramy týkající se frekvencí, bude doplněno.
Pro asociační pravidla jsou k dispozici následující typové úlohy na hledání výjimek a odlišností:
Úlohy tohoto typu lze charakterizovat takto:
Dále jsou uvedeny dva příklady ukazující možnosti hledání asociačních pravidel - výjimek z histogramu. Oba příklady jsou již prezentovány jako příklady aplikací procedury 4ft-Miner. První příklad se týká hledání asociačních pravidel φ → A(ai) takových, že jejich konfidence je alespoň čtyřikrát nižší, než odpovídá výšce sloupce ai v histogramu na celé matici dat. Taková situace je naznačena v levé části předcházejícího obrázku, podrobnosti jsou k dispozici zde.
Druhý příklad se týká hledání asociačních pravidel φ → A(ai) takových, že jejich konfidence je alespoň je alespoň dvakrát vyšší, než odpovídá výšce sloupce ai v histogramu na dané podmatici dat. Taková situace je naznačena v pravé části předcházejícího obrázkupodrobnosti jsou k dispozici zde.
Úlohy tohoto typu lze charakterizovat takto:
Jako příklad takové úlohy uvádíme úlohu týkající se dat Accidents a problému: Existuje podmínka P, dodatečná podmínka D a závažnost Z nehody takové, že zároveň platí:
Ukázka řešení takové úlohy je uvedena zde.
Úlohy tohoto typu lze charakterizovat takto:
Takové úlohy lze řešit pomocí procedury SD4ft-Miner. Uvedenou úlohu převedeme na úlohu hledání dvojice podmíněných asociačních pravidel True ≈ ψ/φ a True ≈ ψ/φ∧ω takových, že konfidence podmíněného asociačního pravidla True ≈ ψ/φ∧ω je násobně vyšší nebo nižší, než je konfidence podmíněného asociačního pravidla True ≈ ψ/φ. True značí identicky pravdivý booleovský atribut.
Dále jsou uvedeny dva příklady ukazující možnosti hledání dvojic podmíněných asociačních pravidel
True ≈ ψ/φ a True ≈ ψ/φ∧ω takových, že konfidence True ≈ ψ/φ∧ω je násobně vyšší nebo nižší, než je konfidence
True ≈ ψ/φ. Oba příklady se týkají dat Hotel a jsou již prezentovány jako příklady aplikací procedury SD4ft-Miner.
První příklad se týká hledání asociačních pravidel True ≈ ψ/φ∧ω takových, že jejich konfidence nejméně 1,5 krát vyšší, než je konfidence podmíněného asociačního pravidla True ≈ ψ/φ. Podrobnosti o příkladu jsou uvedeny zde.
Druhý příklad se týká hledání asociačních pravidel True ≈ ψ/φ∧ω takových, že jejich konfidence je rovna maximálně 0,75 konfidence podmíněného asociačního pravidla True ≈ ψ/φ. Podrobnosti o příkladu jsou uvedeny zde.
Oba příklady lze také chápat jako úlohy na akční pravidla, které ale nejsou řešeny řešena pomocí procedury Ac4ft-Miner.
Úlohy tohoto typu lze charakterizovat takto:
Takové úlohy lze řešit pomocí procedury SD4ft-Miner. Dále je poukázáno na čtyři úlohy uvedeného typu jejichž řešení je již prezentováno pomocí příkladů aplikací procedury SD4ft-Miner.
První tři úlohy se týkají atributu HStat dat Hotel.
První úloha se týká hledání dvojic států, pro které je pro některé skupiny hostů rozdíl procentuálních podílů nějaké kombinace výsledků v dotazníku větší než daná mez. Pro tuto úlohu jsou k dva příklady. První je popsán v této wiki, je k dispozici i obecný postup pro řešení podobných úloh. Druhý příklad je popsán v pdf-souboru dostupném zde. Ve druhém příkladu je také ukázáno, že tuto úlohu nelze řešit pomocí procedury 4ft-Miner.
Druhá úloha se týká hledání slovanských států, pro které je pro některé skupiny hostů rozdíl procentuálního podíl nějaké kombinace výsledků v dotazníku od téhož podílu v německy mluvících státech větší než daná mez. Pro tuto úlohu je k dispozici příklad popsaný v pdf-souboru dostupném zde.
Třetí úloha se týká hledání dvojic států, pro které je pro některé skupiny hostů podíl procentuálních podílů nějaké kombinace výsledků v dotazníku větší než daná mez. Pro tuto úlohu je k dispozici příklad popsaný v této wiki a také obecný postup pro řešení podobných úloh.
Čtvrtá úloha se týká dat Accidents a řeší otázku rozdílů mezi muži a ženami co se týče relativní četnosti nehod s různou závažností pro různé kombinace charakteristiky řidiče a okolností nehody. Podrobnosti jsou uvedeny zde.
Jedná se o úlohu na podmíněná asociační pravidla. Poznamenejme, že podmíněná asociační pravidla nejsou definována v souvislosti s algoritmem apriori. Tato část bude doplněna. Prozatím je k dispozici obecná úloha na podmíněná pravidla, viz zde.
Jedná se o úlohu na podmíněná asociační pravidla s fixovanou částí podmínky. Tato část bude doplněna.
Pro kontingenční tabulky jsou k dispozici následující typové úlohy na hledání výjimek a odlišností:
Bude doplněno, prozatím lze využít příklady aplikací procedury KL-Miner, viz zde.