===== Asociační pravidla a procedura 4ft-Miner =====

Pro asociační pravidla a proceduru 4ft-Miner jsou k dispozici  tato témata: 
  * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Základní informace|základní informace]] 
  * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Příklady typických aplikací|příklady typických aplikací]] 
  * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Typové úlohy pro hledání výjimek a odlišností|typové úlohy pro hledání výjimek a odlišností]] 
  * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Neúplná informace|neúplná informace]]
  * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Dedukce a prostota|dedukce a prostota]]
  * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Práce s doménovou znalostí a automatizace|práce s doménovou znalostí a automatizace]]. 
  * [[lm_guha_te_temata_asociacni_pravidla_a_procedura_4ft-miner#Porovnání procedury 4ft-Miner a arules package v R|porovnání procedury 4ft-Miner a arules package v R]]  


==== Základní informace ====

Procedura 4ft-Miner pracuje s [[lm_guha_te_pravidlo#GUHA a asociační pravidla|GUHA asociačními pravidly φ≈ψ]] a s [[lm_guha_te_pravidlo#Podmíněné asociační pravidlo|podmíněnými GUHA asociačními pravidly φ≈ψ/χ]]. Zde  φ, ψ a χ jsou [[lm_guha_te_bool|booleovské atributy]], ≈ je [[lm_guha_te_pravidlo#4ft-kvantifikátor|4ft-kvantifikátor]]. Booleovský atribut φ se nazývá antecedent, ψ je sukcedent (konsequent) a χ je podmínka. Podrobnosti jsou uvedeny [[lm_guha_te_4ft_proc|zde]].  

==== Příklady typických aplikací ====

Je uvedeno několik typických příkladů aplikací procedury 4ft-Miner, které lze opakovat na vlastních datech bez podrobného studia náležitostí zadání. 

  - **//Vysoká konfidence//**.  Příklady jsou uvedeny [[https://lispminer.vse.cz/wiki/doku.php?id=lmdemo:hotel2015:task:ft|zde]], [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_ar_konf_priklad|zde]], a [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_hotel_-_vysoka_konfidence|zde]]. K tomuto typu úloh je k dispozici i [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_ar_konf_obecne|obecný postup pro řešení]].
  - **//Vysoká konfidence - podmíněná pravidla//**. Příklad je uveden [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_hotel_-_fundovana_vysoka_konfidence_podminena_pravidla|zde]]
  - **//Vysoký lift//**.  Příklad je uveden [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_stulong_-_vysoky_lift|zde]]. 
  -  **//Využití disjunkcí//**. Příklady jsou uvedeny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_traffic_maryland_-_vyuziti_disjunkci_1|zde]] a [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_traffic_maryland_-_vyuziti_disjunkci_2|zde]]. 
  - **//Výjimky z histogramu//**. Příklady jsou uvedeny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_insolvency_-_konfidence_nizsi_nez_odpovida_sloupci_histogramu_na_cele_matici_dat|zde]] a [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_hotel_-_konfidence_vyssi_nez_odpovida_sloupci_histogramu_na_podmatici_dat|zde]]. 

==== Typové úlohy pro hledání výjimek a odlišností ====

Pro proceduru 4ft-Miner jsou popsány následující typové úlohy na hledání výjimek a odlišností:

  - [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typy_uloh_vyjimky#asociacni_pravidlo_-_vyjimka_z_histogramu|asociační pravidlo - výjimka z histogramu]] 
  - [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typy_uloh_vyjimky#vyrazna_zmena_hodnoty_liftu_prodlouzenim_antecedentu|výrazná změna hodnoty liftu prodloužením antecedentu]]. 

==== Neúplná informace ====
Zpracování neúplné informace je jeden z důležitých problémů data mining. V souvislosti s metodou GUHA je tento problém řešen od sedmdesátých let minulého století, podrobnosti jsou [[lm_guha_te_missings|zde]]. Důležitý je [[lm_guha_te_missings#zabezpeceny_pristup_k_neuplne_informaci|zabezpečený přístup]] k neúplné informaci který zaručuje, že když je vztah podle tohoto přístupu platný v dané matici dat s neúplnou informací, tak je tento vztah platný v každé matici dat která vznikne doplněním neúplné informace v analyzované matici. 

Přístupy vyvinuté v souvislosti s metodou GUHA jsou [[lm_guha_te_4ft_missings|implementovány v proceduře 4ft-Miner]] spolu s přístupem používaným  v [[https://cran.r-project.org/web/packages/arules/index.html|package arules systému R]]. 

Porovnání zabezpečeného přístupu k neúplné informaci a přístupu používaného v arules je v 
článku [[https://content.iospress.com/articles/intelligent-data-analysis/ida160069|Apriori and GUHA – Comparing two approaches to data mining with association rules]], viz také příklad uvedený [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_adult_-_chybejici_informace|zde]]. Ukazuje se, že přístup dle arules vede ke zvýšení obvykle již dost vysokého počtu vystupujících pravidel. Pravidla, která jsou  navíc však nemusí být ve skutečnosti pravdivá. 


==== Dedukce a prostota ====

[[lm_guha_te_pravidlo|GUHA asociační pravidla]] jsou podstatně obecnější než "klasická" asociační pravidla produkovaná algoritmem apriori. 
Důsledkem je možnost využití [[lm_guha_te_dedukcni_pravidla|dedukčních pravidel]], důležité příklady dedukčních pravidel [[lm_guha_te_dedukcni_pravidla_priklady|jsou zde]]. 


[[lm_guha_te_tridy#dedukcni_pravidla_pro_implikacni_a_slabe_implikacni_pravidla|Korektní dedukční pravidla]] jsou používána pro optimalizaci běhu i výstupu procedury 4ft-Miner. Je možno zvolit, že do výstupu procedury budou zařazena pouze  [[lm_guha_te_4ft_prostota|prostá pravidla]], tedy taková, která neplynou z jiných, ve výstupu již uvedených a jednodušších pravidel. 

Podrobnosti zadávání výstupu pouze prostých pravidel jsou [[lm_guha_te_4ft_dalsi_params|zde]].  

==== Práce s doménovou znalostí a automatizace ====

S procedurou 4ft-Miner je spojen i výzkum možností práce s doménovou znalostí a s její automatizací. Ukázky jsou uvedeny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft&do=#data_stulong_-_automaticke_odfiltrovani_dusledku_domenove_znalosti|zde]] a v článku [[https://link.springer.com/article/10.1007/s10115-018-1206-x|Expert deduction rules in data mining with association rules: a case study]].

==== Porovnání procedury 4ft-Miner a arules package v R ====

Procedura 4ft-Miner pracuje s [[lm_guha_te_pravidlo|GUHA asociačními pravidly]] která jsou obecnější než asociační pravidla poskytovaná algoritmem apriori. S GUHA asociačními pravidly je spojena teorie [[lm_guha_te_oc_prehled|observačních kalkulů]]. Procedura 4ft-Miner je implementována s využitím bitových řetízků pomocí jiného algoritmu než apriori, viz například [[https://dl.acm.org/doi/10.5555/647857.738518|tento článek]]. To vede k širším možnostem  a také k jiným vlastnostem procedury 4ft-Miner ve srovnání s algoritmem apriori. 

Populární implementací algoritmu apriori je [[https://cran.r-project.org/web/packages/arules/index.html|arules package v systému R]]. 
Porovnání procedury 4ft-Miner a arules package na datech [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_adult|Adult]] je k dispozici [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft&do=#porovnani_procedury_4ft-miner_a_arules_package_v_r|zde]].  
Podrobnější informace jsou v článku [[https://content.iospress.com/articles/intelligent-data-analysis/ida160069|Apriori and GUHA – Comparing two approaches to data mining with association rules]].
Hlavní závěry uvedené v článku jsou: 
  * 4ft-Miner je pomalejší než arules. To je způsobeno mimo jiné tím, že 4ft-Miner udržuje informace  potřebné pro různé způsoby práce s neúplnou informací, které nabízí. Doba běhu procedury 4ft-Miner je však stále přijatelná a je pouhým zlomkem celkové doby potřebné k řešení úloh data mining. 
  * Obě procedury obvykle produkují mnoho pravidel, které je třeba dále interpretovat.  Tento počet je u arules v případě dat s neúplnou informací ještě dále zvyšován produkcí pravidel, která mohou být nepravdivá při doplnění chybějících hodnot skutečnými hodnotami. Příklad je uveden [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_adult_-_chybejici_informace|zde]]. 
  * Různé typy koeficientů umožňují řešit procedurou 4ft-Miner úlohy, které prakticky nelze řešit pomocí procedury arules. Příklady jsou uvedeny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_adult_-_vyuziti_koeficientu|zde]]
  * Procedura 4ft-Miner pracuje i s [[lm_guha_te_oc_podminena|podmíněnými asociačními pravidly]] což umožňuje řešit úlohy, které nejde přímo řešit pomocí procedury arules. 
  * Procedura  arules vyžaduje zadání minimálních hodnot konfidence a podpory. To může vést ke ztrátě pravidel s vysokým liftem. Tento problém lze obejít  zadáním velmi nízkého prahu pro podporu, což však může vést ke značnému nárůstu vystupujících pravidel. Tento problém se netýká procedury 4ft-Miner.