====== Asociační pravidla - příklady aplikací procedury 4ft-Miner ====== Dále jsou uvedeny příklady aplikací procedury [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_proc|4ft-Miner]]. Procedura pracuje s [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_pravidlo|GUHA asociačními pravidly]], která jsou obecnější než asociační pravidla poskytovaná algoritmem apriori. Jsou k dispozici jak [[lm_guha_di_typul_4ft#Příklady popsané ve wiki LISp-Miner a v této wiki |příklady popsané na stránkách wiki LISp-Miner a této wiki]], tak i [[lm_guha_di_typul_4ft#Příklady popsané v souborech pdf|příklady popsané v souborech pdf]] na které je z této wiki odkazováno. Piktogramy u jednotlivých příkladů naznačují, které z [[lm_guha_di_typy_uloh_procedury#4ft-Miner, asociační pravidla|typových úloh]] jednotlivé příklady řeší. ===== Příklady popsané ve wiki LISp-Miner a v této wiki ===== **Příklad 1** - {{:4ft_miner_vysoka_konfidence_podminene.png?70}} [[https://lispminer.vse.cz/wiki/doku.php?id=lmdemo:hotel2015:task:ft|Vyplývají z místa bydliště hosta nějaké typické parametry pobytu, případně i počasí? A to obecně i zvlášť pro rekreační a služební pobyty.]] uvedený ve wiki [[https://lispminer.vse.cz/wiki/doku.php|Systém LISp-Miner]]. **Příklad 2** - {{:4ft_miner_vysoka_konfidence.png?50}} [[lm_guha_di_ar_konf_priklad|Pravidla s vysokou konfidencí]], k tomuto příkladu je k dispozici i [[lm_guha_di_ar_konf_obecne|obecný postup pro řešení úloh stejného typu]]. **Příklad 3** - {{:4ft_miner_vysoky_lift.png?50}} [[lm_guha_di_ar_aa_priklad|Nárůst relativní četnosti]], k tomuto příkladu je k dispozici i [[lm_guha_di_ar_aa_obecne|obecný postup pro řešení úloh stejného typu]]. **Příklad 4** - [[lm_guha_di_ar_hist_base_supp|4ft-kvantifikátory BASE a support]]. ===== Příklady popsané v souborech pdf ===== Příklady popsané v souborech pdf jsou rozděleny do skupin podle toho, jaké typy úloh řeší. Piktogramy naznačují dílčí typy úloh. Příklady jsou rozděleny do několika skupin: * [[lm_guha_di_typul_4ft#Asociační pravidla s vysokou konfidencí nebo liftem|Asociační pravidla s vysokou konfidencí nebo liftem]] * [[lm_guha_di_typul_4ft#Asociační pravidla - výjimky z histogramu|Asociační pravidla - výjimky z histogramu]] * [[lm_guha_di_typul_4ft#Podmíněná asociační pravidla|Podmíněná asociační pravidla]] * [[lm_guha_di_typul_4ft#Výrazná změna liftu prodloužením antecedentu|Výrazná změna liftu prodloužením antecedentu]] * [[lm_guha_di_typul_4ft#Porovnání procedury 4ft-Miner a arules package v R|Porovnání procedury 4ft-Miner a arules package v R]] * [[lm_guha_di_typul_4ft#Práce s doménovou znalostí a automatizace|Práce s doménovou znalostí a automatizace]]. ===== Asociační pravidla s vysokou konfidencí nebo liftem ===== ==== Data Hotel - vysoká konfidence ==== {{:4ft_miner_vysoka_konfidence.png?50 |}} Příklad se týká dat [[lm_guha_di_hotel_prehled_skupin|Hotel]] a řeší problém: //Vyplývají z místa bydliště hosta nějaké typické parametry pobytu, případně i počasí?// Příklad je podobný příkladu 2. Podrobnosti k příkladu jsou {{ :4ft_01_hotel_konfidence.pdf |zde}}. ==== Data Stulong - vysoký lift ==== {{:4ft_miner_vysoky_lift.png?50}} Příklad se týká dat [[lm_guha_di_stulong|Stulong]] a řeší problém: //Existuje skupina pacientů definovaná pomocí osobních údajů, spotřeby alkoholu, cukru, kávy a čaje taková, že relativní četnost pacientů s rizikem obezity je v této skupině o 50 % větší než v celém souboru a zároveň počet pacientů ze skupiny s rizikem obezity je minimálně 30? // Podrobnosti k příkladu jsou {{ :4ft_03_stulong_above_average.pdf |zde}}. ==== Data Traffic Maryland - využití disjunkcí 1 ==== {{:4ft_miner_vyuziti_disjunkci.png?120 |}} Příklad se týká dat [[lm_guha_di_traffic_maryland|Traffic Maryland]] a řeší problém: //Jací řidiči vykazují velkou pravděpodobnost nějaké chyby spojené s vážnou nehodou? // Podrobnosti k příkladu jsou {{ :4ft_04_traffic_vyuziti_disjunkci_1.pdf |zde}}. ==== Data Traffic Maryland - využití disjunkcí 2 ==== {{:4ft_miner_vyuziti_disjunkci.png?120 |}} Příklad se týká dat [[lm_guha_di_traffic_maryland|Traffic Maryland]] a řeší problém: //Jací řidiči mají za špatného počasí velkou pravděpodobnost vážné nehody? // Podrobnosti k příkladu jsou {{ :4ft_05_traffic_vyuziti_disjunkci_2.pdf |zde}}. ===== Asociační pravidla - výjimky z histogramu ===== ==== Data Insolvency - konfidence nižší, než odpovídá sloupci histogramu na celé matici dat ==== {{:4ft_miner_konfidence_nizsi_nez_sloupec.png?100 |}} Příklad se týká dat [[lm_guha_di_insolvency|Insolvency]] a řeší problém: //Hledáme pravidla φ → Days_to_start(ai) taková, že jejich konfidence je alespoň čtyřikrát nižší, než odpovídá výšce sloupce ai v histogramu na celé matici dat. // Podrobnosti k příkladu jsou {{ :4ft_06_insolvency_vyjimky_z_obecneho_histogramu.pdf |zde. }} ==== Data Hotel - konfidence vyšší, než odpovídá sloupci histogramu na podmatici dat ==== {{:4ft_miner_konfidence_vyssi_nez_sloupec.png?100 |}} Příklad se týká dat [[lm_guha_di_insolvency|Insolvency]] a řeší problém: //Hledáme pravidla φ → Days_to_start(ai) taková, že jejich konfidence je alespoň dvakrát vyšší, než odpovídá výšce sloupce ai v histogramu na dané podmatici dat. // Podrobnosti k příkladu jsou {{ :4ft_07_insolvency_vyjimky_z_podmineneho_histogramu.pdf |zde}}. ===== Podmíněná asociační pravidla ===== ==== Data Hotel - fundovaná vysoká konfidence, podmíněná pravidla ==== {{:4ft_miner_vysoka_konfidence_podminene.png?70}}Příklad se týká dat [[lm_guha_di_hotel_prehled_skupin|Hotel]] a řeší problém: //Vyplývají z místa bydliště hosta nějaké typické parametry pobytu, případně i počasí? A to obecně i zvlášť pro rekreační a služební pobyty. // Příklad je inspirován příkladem 1. Podrobnosti k příkladu jsou {{ :4ft_02_hotel_konfidence_podminena_pravidla.pdf |zde}}. ==== Data Hotel - vysoká konfidence se supportem, podmíněná pravidla ==== BUDE DOPLŇENO ==== Data Hotel - vysoký lift, podmíněná pravidla ==== BUDE DOPLŇENO ===== Výrazná změna liftu prodloužením antecedentu ===== ==== Data Accidents - snížení hodnoty liftu pod hodnotu 1 prodloužením antecedentu ==== {{:sd4ft_miner_snizeni_liftu.png ?80|}}Příklad se týká dat [[lm_guha_di_accidents|Accidents]] a problému: Existuje podmínka P, dodatečná podmínka D a závažnost Z nehody takové, že zároveň platí: * relativní četnost nehod se závažností Z za podmínky P je vyšší než relativní četnost poruch se závažnosti Z mezi všemi nehodami * relativní četnost nehod se závažností Z je za současné platnosti podmínky P i dodatečné podmínky D nižší, než je relativní četnost nehod se závažnosti Z mezi všemi nehodami? Podrobnosti k příkladu jsou {{ :4ft_13_accidents_below_average_jako_vyjimka.pdf |zde}}. ===== Porovnání procedury 4ft-Miner a arules package v R ===== V rámci porovnání procedury 4ft-Miner a [[https://cran.r-project.org/web/packages/arules/index.html|arules package v R]] je nejprve řešena [[lm_guha_di_typul_4ft#Data Adult - stejná úloha ve 4ft-Miner a v arules|stejná úloha]] jak pomocí procedury 4ft-Miner, tak pomocí arules package v systému R. [[lm_guha_di_typul_4ft#Data Adult - využití koeficientů|Další příklad]] ukazuje, že pomocí koeficientů základních booleovských atributů lze procedurou 4ft-Miner řešit úlohy, které prakticky nelze řešit v arules. V [[lm_guha_di_typul_4ft#Data Adult - chybějící informace|posledním příkladu]] je porovnán přístup k neúplné informaci v GUHA proceduře 4ft-Miner a v arules. Podrobnější informace jsou v článku [[https://content.iospress.com/articles/intelligent-data-analysis/ida160069|Apriori and GUHA – Comparing two approaches to data mining with association rules]]. ==== Data Adult - stejná úloha ve 4ft-Miner a v arules ==== {{:4ft_miner_porovnani_s_arules.png?100 |}} Příklad se týká dat [[lm_guha_di_adult|Adult]] a řeší problém: //Nalézt všechna asociační pravidla X → Y tak, že conf (X → Y) ≥ 0.95 a sup(X → Y) ≥ 0.45. // Podrobnosti k příkladu jsou {{ :4ft_08_adult_stejna_uloha.pdf |zde}}. ==== Data Adult - využití koeficientů ==== {{:4ft_miner_porovnani_s_arules.png?100 |}} Příklad se týká dat [[lm_guha_di_adult|Adult]] a řeší problémy: //Hledání segmentů osob s extrémními hodnotami zisku// a // Hledání segmentů osob s extrémními hodnotami zisku a zároveň s vysokým příjmem. // Podrobnosti k příkladu jsou {{ :4ft_09_adult_vyuziti_koeficientu.pdf |zde}}. ==== Data Adult - chybějící informace ==== {{:4ft_miner_porovnani_s_arules.png?100 |}} Příklad se týká dat [[lm_guha_di_adult|Adult]] a řeší problém: //Porovnání práce s neúplnou informací v GUHA proceduře 4ft-Miner a v arules package který je součástí systému R. // Podrobnosti k příkladu jsou {{ :4ft_10_adult_missings_porovnani_s_r.pdf |zde}}. ===== Práce s doménovou znalostí a automatizace ===== ==== Data Stulong - automatické odfiltrování důsledků doménové znalosti ==== {{:4ft_miner_domenova_znalost.png?100 |}} Příklad se týká dat [[lm_guha_di_stulong|Stulong]] a řeší problém: //Automatické odfiltrování asociačních pravidel -důsledků doménové znalosti. // Podrobnosti k příkladu jsou {{ :4ft_11_stulong_domenove_znalosti_odfiltrovani_dusledku.pdf |zde}}. Další informace jsou v článku [[https://link.springer.com/chapter/10.1007/978-3-319-09870-8_20|Learning Association Rules from Data through Domain Knowledge and Automation]]. ==== Data Adult - využití expertních dedukčních pravidel ==== {{:4ft_miner_domenova_znalost.png?100 |}} Příklad se týká dat [[lm_guha_di_adult|Adult]] a řeší problém: //Definice a využití expertních pravidel pro odfiltrování nezajímavých asociačních pravidel. // Podrobnosti k příkladu jsou zde BUDE DOPLŇENO. Další informace jsou v článku [[https://link.springer.com/article/10.1007/s10115-018-1206-x|Expert deduction rules in data mining with association rules: a case study]].