===== Asociační pravidla a procedura 4ft-Miner ===== Pro asociační pravidla a proceduru 4ft-Miner jsou k dispozici tato témata: * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Základní informace|základní informace]] * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Příklady typických aplikací|příklady typických aplikací]] * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Typové úlohy pro hledání výjimek a odlišností|typové úlohy pro hledání výjimek a odlišností]] * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Neúplná informace|neúplná informace]] * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Dedukce a prostota|dedukce a prostota]] * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Práce s doménovou znalostí a automatizace|práce s doménovou znalostí a automatizace]]. * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Porovnání procedury 4ft-Miner a arules package v R|porovnání procedury 4ft-Miner a arules package v R]] ==== Základní informace ==== Procedura 4ft-Miner pracuje s [[lm_guha_te_pravidlo#GUHA a asociační pravidla|GUHA asociačními pravidly φ≈ψ]] a s [[lm_guha_te_pravidlo#Podmíněné asociační pravidlo|podmíněnými GUHA asociačními pravidly φ≈ψ/χ]]. Zde φ, ψ a χ jsou [[lm_guha_te_bool|booleovské atributy]], ≈ je [[lm_guha_te_pravidlo#4ft-kvantifikátor|4ft-kvantifikátor]]. Booleovský atribut φ se nazývá antecedent, ψ je sukcedent (konsequent) a χ je podmínka. Podrobnosti jsou uvedeny [[lm_guha_te_4ft_proc|zde]]. ==== Příklady typických aplikací ==== Je uvedeno několik typických příkladů aplikací procedury 4ft-Miner, které lze opakovat na vlastních datech bez podrobného studia náležitostí zadání. - **//Vysoká konfidence//**. Příklady jsou uvedeny [[https://lispminer.vse.cz/wiki/doku.php?id=lmdemo:hotel2015:task:ft|zde]], [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_ar_konf_priklad|zde]], a [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_hotel_-_vysoka_konfidence|zde]]. K tomuto typu úloh je k dispozici i [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_ar_konf_obecne|obecný postup pro řešení]]. - **//Vysoká konfidence - podmíněná pravidla//**. Příklad je uveden [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_hotel_-_fundovana_vysoka_konfidence_podminena_pravidla|zde]] - **//Vysoký lift//**. Příklad je uveden [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_stulong_-_vysoky_lift|zde]]. - **//Využití disjunkcí//**. Příklady jsou uvedeny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_traffic_maryland_-_vyuziti_disjunkci_1|zde]] a [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_traffic_maryland_-_vyuziti_disjunkci_2|zde]]. - **//Výjimky z histogramu//**. Příklady jsou uvedeny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_insolvency_-_konfidence_nizsi_nez_odpovida_sloupci_histogramu_na_cele_matici_dat|zde]] a [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_hotel_-_konfidence_vyssi_nez_odpovida_sloupci_histogramu_na_podmatici_dat|zde]]. ==== Typové úlohy pro hledání výjimek a odlišností ==== Pro proceduru 4ft-Miner jsou popsány následující typové úlohy na hledání výjimek a odlišností: - [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typy_uloh_vyjimky#asociacni_pravidlo_-_vyjimka_z_histogramu|asociační pravidlo - výjimka z histogramu]] - [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typy_uloh_vyjimky#vyrazna_zmena_hodnoty_liftu_prodlouzenim_antecedentu|výrazná změna hodnoty liftu prodloužením antecedentu]]. ==== Neúplná informace ==== Zpracování neúplné informace je jeden z důležitých problémů data mining. V souvislosti s metodou GUHA je tento problém řešen od sedmdesátých let minulého století, podrobnosti jsou [[lm_guha_te_missings|zde]]. Důležitý je [[lm_guha_te_missings#zabezpeceny_pristup_k_neuplne_informaci|zabezpečený přístup]] k neúplné informaci který zaručuje, že když je vztah podle tohoto přístupu platný v dané matici dat s neúplnou informací, tak je tento vztah platný v každé matici dat která vznikne doplněním neúplné informace v analyzované matici. Přístupy vyvinuté v souvislosti s metodou GUHA jsou [[lm_guha_te_4ft_missings|implementovány v proceduře 4ft-Miner]] spolu s přístupem používaným v [[https://cran.r-project.org/web/packages/arules/index.html|package arules systému R]]. Porovnání zabezpečeného přístupu k neúplné informaci a přístupu používaného v arules je v článku [[https://content.iospress.com/articles/intelligent-data-analysis/ida160069|Apriori and GUHA – Comparing two approaches to data mining with association rules]], viz také příklad uvedený [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_adult_-_chybejici_informace|zde]]. Ukazuje se, že přístup dle arules vede ke zvýšení obvykle již dost vysokého počtu vystupujících pravidel. Pravidla, která jsou navíc však nemusí být ve skutečnosti pravdivá. ==== Dedukce a prostota ==== [[lm_guha_te_pravidlo|GUHA asociační pravidla]] jsou podstatně obecnější než "klasická" asociační pravidla produkovaná algoritmem apriori. Důsledkem je možnost využití [[lm_guha_te_dedukcni_pravidla|dedukčních pravidel]], důležité příklady dedukčních pravidel [[lm_guha_te_dedukcni_pravidla_priklady|jsou zde]]. [[lm_guha_te_tridy#dedukcni_pravidla_pro_implikacni_a_slabe_implikacni_pravidla|Korektní dedukční pravidla]] jsou používána pro optimalizaci běhu i výstupu procedury 4ft-Miner. Je možno zvolit, že do výstupu procedury budou zařazena pouze [[lm_guha_te_4ft_prostota|prostá pravidla]], tedy taková, která neplynou z jiných, ve výstupu již uvedených a jednodušších pravidel. Podrobnosti zadávání výstupu pouze prostých pravidel jsou [[lm_guha_te_4ft_dalsi_params|zde]]. ==== Práce s doménovou znalostí a automatizace ==== S procedurou 4ft-Miner je spojen i výzkum možností práce s doménovou znalostí a s její automatizací. Ukázky jsou uvedeny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft&do=#data_stulong_-_automaticke_odfiltrovani_dusledku_domenove_znalosti|zde]] a v článku [[https://link.springer.com/article/10.1007/s10115-018-1206-x|Expert deduction rules in data mining with association rules: a case study]]. ==== Porovnání procedury 4ft-Miner a arules package v R ==== Procedura 4ft-Miner pracuje s [[lm_guha_te_pravidlo|GUHA asociačními pravidly]] která jsou obecnější než asociační pravidla poskytovaná algoritmem apriori. S GUHA asociačními pravidly je spojena teorie [[lm_guha_te_oc_prehled|observačních kalkulů]]. Procedura 4ft-Miner je implementována s využitím bitových řetízků pomocí jiného algoritmu než apriori, viz například [[https://dl.acm.org/doi/10.5555/647857.738518|tento článek]]. To vede k širším možnostem a také k jiným vlastnostem procedury 4ft-Miner ve srovnání s algoritmem apriori. Populární implementací algoritmu apriori je [[https://cran.r-project.org/web/packages/arules/index.html|arules package v systému R]]. Porovnání procedury 4ft-Miner a arules package na datech [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_adult|Adult]] je k dispozici [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft&do=#porovnani_procedury_4ft-miner_a_arules_package_v_r|zde]]. Podrobnější informace jsou v článku [[https://content.iospress.com/articles/intelligent-data-analysis/ida160069|Apriori and GUHA – Comparing two approaches to data mining with association rules]]. Hlavní závěry uvedené v článku jsou: * 4ft-Miner je pomalejší než arules. To je způsobeno mimo jiné tím, že 4ft-Miner udržuje informace potřebné pro různé způsoby práce s neúplnou informací, které nabízí. Doba běhu procedury 4ft-Miner je však stále přijatelná a je pouhým zlomkem celkové doby potřebné k řešení úloh data mining. * Obě procedury obvykle produkují mnoho pravidel, které je třeba dále interpretovat. Tento počet je u arules v případě dat s neúplnou informací ještě dále zvyšován produkcí pravidel, která mohou být nepravdivá při doplnění chybějících hodnot skutečnými hodnotami. Příklad je uveden [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_adult_-_chybejici_informace|zde]]. * Různé typy koeficientů umožňují řešit procedurou 4ft-Miner úlohy, které prakticky nelze řešit pomocí procedury arules. Příklady jsou uvedeny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_adult_-_vyuziti_koeficientu|zde]] * Procedura 4ft-Miner pracuje i s [[lm_guha_te_oc_podminena|podmíněnými asociačními pravidly]] což umožňuje řešit úlohy, které nejde přímo řešit pomocí procedury arules. * Procedura arules vyžaduje zadání minimálních hodnot konfidence a podpory. To může vést ke ztrátě pravidel s vysokým liftem. Tento problém lze obejít zadáním velmi nízkého prahu pro podporu, což však může vést ke značnému nárůstu vystupujících pravidel. Tento problém se netýká procedury 4ft-Miner.