====== GUHA asociační pravidlo ====== ===== Asociační pravidlo ===== Asociační pravidla byla definována v devadesátých letech minulého století jako nástroj pro zkoumání chování zákazníků v supermarketech. Článek [[http://dl.acm.org/citation.cfm?doid=170035.170072&preflayout=flat| Mining association rules between sets of items in large databases]] je jedním z prvních článků na toto téma. Asociačním pravidlem se rozumí výraz X → Y kdy X a Y jsou disjunktní množiny položek vyskytujících se v nákupních košících. Asociační pravidlo {máslo, sýr} → {chléb} vyjadřuje fakt, že zákazníci nakupující máslo a sýr často nakupují i chléb. Myšlenka asociačních pravidel byla později zobecněna na matice dat. Asociačním pravidlem se tedy obvykle rozumí výraz A → S kde A i S jsou konjunkce dvojic atribut-hodnota. Příkladem je asociační pravidlo \\ **Vzdělání(//PhD//)** ∧ **Povolání(//ředitel//)** → **Příjem(//vysoký//)**. Konfidence asociačního pravidla A → S je podíl (počet řádků splňujících A i S)/(počet řádků splňujících S), podpora pravidla A → S je podíl (počet řádků splňujících A i S)/(počet řádků matice dat). Úlohou dobývání asociačních pravidel se obvykle rozumí úloha nalezení všech asociačních pravidel jejichž konfidence i podpora jsou větší nebo rovny zadaným mezím. ===== Metoda GUHA a asociační pravidla ===== Koncept asociačního pravidla však byl definován a studován již v šedesátých letech minulého století v rámci vývoje metody GUHA. Článek [[https://link.springer.com/article/10.1007/BF02345483|The GUHA method of automatic hypotheses determination]] byl jedním z prvních článků o metodě GUHA. Další články z počátků metody GUHA jsou k dispozici [[lm_guha_te_publikace#1966 - 1981|zde]]. Významným mezníkem ve vývoji metody GUHA je kniha [[https://www.springer.com/gp/book/9783540087380|Mechanizing hypothesis formation (Mathematical foundations for a general theory)]], která je k dispozici i ve formě [[http://www.cs.cas.cz/~hajek/guhabook/|internetové edice]]. Asociační pravidla byla v rámci vývoje metody GUHA zkoumána jako obecný vztah dvojice obecných booleovských atributů odvozených ze sloupců analyzované matice dat. Procedury ASSOC a IMPL byly vyvinuty jako nástroj pro dolování GUHA asociačních pravidel. Podrobnosti viz například [[https://www.sciencedirect.com/journal/international-journal-of-man-machine-studies/vol/10/issue/1|Special Issue on GUHA, Int. J. Man-Mach. Stud. 10 (1) (1978)]] a [[https://www.sciencedirect.com/journal/international-journal-of-man-machine-studies/vol/15/issue/3|Second Special Issue Int. J. Man-Mach. Stud. on GUHA]]. Taková asociační pravidla budeme nazývat // GUHA asociační pravidla// pokud budeme chtít zdůraznit, že se jedná o obecný vztah dvou odvozených booleovských atributů. Pokud nebude nebezpečí nedorozumění, budeme používat výraz "asociační pravidlo" nebo pouze "pravidlo" i pro GUHA asociační pravidla. Od devadesátých let minulého století je GUHA rozvíjena jako metoda pro dobývání znalostí z databází, viz článek [[https://dl.acm.org/citation.cfm?id=1655709|The GUHA method and its meaning for data mining]]. Podrobnosti o vztahu GUHA asociačních pravidel a asociačních pravidel jsou např. v článku [[https://content.iospress.com/articles/intelligent-data-analysis/ida160069|Apriori and GUHA – Comparing two approaches to data mining with association rules]]. Teorie vyvinutá pro GUHA asociační pravidla zahrnuje i speciální přístup k práci s [[lm_guha_te_missings|neúplnou informací]]. Jsou také k dispozici výsledky o [[lm_guha_te_oc_prehled|teoretických vlastnostech asociačních pravidel]]. Dále používáme syntaxi zavedenou v knize [[http://link.springer.com/book/10.1007/978-3-642-11737-4|Observational Calculi and Association Rules]]. ===== GUHA asociační pravidlo ===== GUHA asociačním pravidlem rozumíme výraz φ≈ψ, kde * φ a ψ jsou [[lm_guha_te_bool|booleovské atributy]] které nemají společný atribut * ≈ je[[lm_guha_te_pravidlo#4ft-kvantifikátor| 4ft-kvantifikátor]]. Booleovský atribut φ se nazývá //antecedent//, ψ je //sukcedent// (//konsequent//). Určení, zda [[lm_guha_te_pravidlo#Asociační pravidlo je pravdivé v matici dat|GUHA asociační pravidlo φ≈ψ je pravdivé v matici dat M]] se provádí na základě [[lm_guha_te_pravidlo#4ft-tabulka|4ft-tabulky 4ft(φ,ψ,M)]]. Je možno pracovat i s [[lm_guha_te_pravidlo#Podmíněné asociační pravidlo|podmíněnými GUHA asociační pravidl]]y φ≈ψ/χ kde χ je booleovský atribut. ===== 4ft-tabulka ===== //4ft-tabulkou// 4ft(φ,ψ,**M**) //antecedentu// φ a //sukcedentu// ψ //pro matici dat// **M** rozumíme čtveřici čísel ‹ //a//,//b//,//c//,//d// › kde * //a// je počet řádků matice dat **M** splňujících oba booleovské atributy φ a ψ * //b// je počet řádků matice dat **M** splňujících φ a nesplňujících ψ * //c// je počet řádků matice dat **M** nesplňujících φ a splňujících ψ * //d// je počet řádků matice dat **M** nesplňujících ani φ ani ψ. 4ft-tabulka 4ft(φ,ψ,**M**) je často prezentována ve formě čtyřpolní tabulky dle následujícího obrázku. {{ :4ft_tabulka.png?150 |}} ===== 4ft-kvantifikátor ===== Symbol "≈" v GUHA asociačním pravidle φ≈ψ se nazývá 4ft-kvantifikátor. Definuje podmínku týkající se čtveřic celých nezáporných čísel ‹ //a//,//b//,//c//,//d// ›. Podmínka definovaná 4ft-kvantifikátorem ≈ je formalizována pomocí //asociované funkce// F // 4ft-kvantifikátoru// ≈ . Funkce F přiřazuje každé čtveřici nezáporných celých čísel \\ ‹ //a//,//b//,//c//,//d// › hodnotu 1 (pokud podmínka je splněna) nebo 0 (pokud podmínka není splněna). Příkladem je asociovaná funkce F 4ft-kvantifikátoru → s konfidencí //C// a supportem //S//. Tato funkce je definována takto: * F(//a//,//b//,//c//,//d//) = 1 pokud platí zároveň jak //a// / (//a//+//b//) ≥ //C// tak i //a// / (//a//+//b//+//c//+//d//) ≥ //S// * F(//a//,//b//,//c//,//d//) = 0 v opačném případě. 4ft-kvantifikátory implementované v GUHA proceduře 4ft-Miner jsou popsány [[lm_guha_te_4ft_kvantifikator|zde]]. Pojem asociované funkce kvantifikátoru byl definován v knize [[https://www.springer.com/gp/book/9783540087380|Mechanizing hypothesis formation (Mathematical foundations for a general theory)]] a je používán i v knize [[http://link.springer.com/book/10.1007/978-3-642-11737-4|Observational Calculi and Association Rules]]. Cílem je důsledně rozlišit mezi kvantifikátorem jako symbolem jazyka a jeho interpretací. Pokud nebude nebezpečí nedorozumění, nebudeme pro jednoduchost dále rozlišovat 4ft-kvantifikátor od jeho asociované funkce. 4ft-kvantifikátor ≈ budeme tedy chápat i jako {0,1}-hodnotovou funkci definovanou pro čtveřice nezáporných celých čísel ‹ //a//,//b//,//c//,//d// ›. To znamená například * →(//a//,//b//,//c//,//d//) = 1 pokud platí zároveň jak //a// / (//a//+//b//) ≥ //C// tak i //a// / (//a//+//b//+//c//+//d//) ≥ //S// * →(//a//,//b//,//c//,//d//) = 0 v opačném případě. ===== Asociační pravidlo je pravdivé v matici dat===== Pravdivost GUHA asociačního pravidla φ≈ψ v matici dat **M** je definována pomocí 4ft-tabulky 4ft(φ,ψ,**M**) = ‹//a//,//b//,//c//,//d//›: * φ≈ψ je pravdivé v matici dat **M** pokud platí ≈(//a//,//b//,//c//,//d//) = 1, formálně zapisujeme Val(φ≈ψ, **M**) = 1 * φ≈ψ je nepravdivé v matici dat **M** pokud platí ≈(//a//,//b//,//c//,//d//) = 0, formálně zapisujeme Val(φ≈ψ, **M**) = 0. ===== Podmíněné asociační pravidlo ===== Podmíněné GUHA asociační pravidlo je výraz φ≈ψ/χ kde φ≈ψ je asociační pravidlo a χ je booleovský atribut který nazýváme podmínkou. Booleovský atribut χ nemá žádný společný atribut s booleovskými atributy φ a ψ. Intuitivní význam podmíněného pravidla φ≈ψ/χ je, že pokud je splněna podmínka χ, pak asociační pravidlo φ≈ψ je pravdivé. Jinými slovy, podmíněné asociační pravidlo φ≈ψ/χ je pravdivé v matici dat **M** pokud asociační pravidlo φ≈ψ je pravdivé v matici dat **M/χ**. Tomu odpovídá i definice: * Podmíněné asociační pravidlo φ≈ψ/χ je pravdivé v matici dat **M** pokud je asociační pravidlo φ≈ψ pravdivé v matici dat **M/χ**. Formálně píšeme Val(φ≈ψ/χ, **M**) = 1. * Podmíněné asociační pravidlo φ≈ψ/χ je nepravdivé v matici dat **M** pokud je asociační pravidlo φ≈ψ nepravdivé v matici dat **M/χ**. Formálně píšeme Val(φ≈ψ/χ, **M**) = 0. GUHA asociačním pravidlem nadále rozumíme jak pravidlo φ≈ψ, tak i podmíněné pravidlo φ≈ψ/χ.