Úvod
Důležité pojmy
Vztahy, s nimiž procedury pracují
GUHA procedury
GUHA procedury - společné prvky
Observační kalkuly - relevantní výsledky
Důležité tématické okruhy
Úvod
Důležité pojmy
Vztahy, s nimiž procedury pracují
GUHA procedury
GUHA procedury - společné prvky
Observační kalkuly - relevantní výsledky
Důležité tématické okruhy
Asociační pravidla byla definována v devadesátých letech minulého století jako nástroj pro zkoumání chování
zákazníků v supermarketech. Článek Mining association rules between sets of items in large databases
je jedním z prvních článků na toto téma. Asociačním pravidlem se rozumí výraz X → Y kdy X a Y jsou
disjunktní množiny položek vyskytujících se v nákupních košících.
Asociační pravidlo {máslo, sýr} → {chléb} vyjadřuje fakt, že zákazníci nakupující máslo a sýr
často nakupují i chléb. Myšlenka asociačních pravidel byla později zobecněna na matice dat.
Asociačním pravidlem se tedy obvykle rozumí výraz A → S kde A i S jsou konjunkce dvojic atribut-hodnota.
Příkladem je asociační pravidlo
Vzdělání(PhD) ∧ Povolání(ředitel) → Příjem(vysoký).
Konfidence asociačního pravidla A → S je podíl (počet řádků splňujících A i S)/(počet řádků splňujících S), podpora pravidla A → S je podíl (počet řádků splňujících A i S)/(počet řádků matice dat). Úlohou dobývání asociačních pravidel se obvykle rozumí úloha nalezení všech asociačních pravidel jejichž konfidence i podpora jsou větší nebo rovny zadaným mezím.
Koncept asociačního pravidla však byl definován a studován již v šedesátých letech minulého století v rámci vývoje metody GUHA. Článek The GUHA method of automatic hypotheses determination byl jedním z prvních článků o metodě GUHA. Další články z počátků metody GUHA jsou k dispozici zde. Významným mezníkem ve vývoji metody GUHA je kniha Mechanizing hypothesis formation (Mathematical foundations for a general theory), která je k dispozici i ve formě internetové edice.
Asociační pravidla byla v rámci vývoje metody GUHA zkoumána jako obecný vztah dvojice obecných booleovských atributů odvozených ze sloupců analyzované matice dat. Procedury ASSOC a IMPL byly vyvinuty jako nástroj pro dolování GUHA asociačních pravidel. Podrobnosti viz například Special Issue on GUHA, Int. J. Man-Mach. Stud. 10 (1) (1978) a Second Special Issue Int. J. Man-Mach. Stud. on GUHA.
Taková asociační pravidla budeme nazývat GUHA asociační pravidla pokud budeme chtít zdůraznit, že se jedná o obecný vztah dvou odvozených booleovských atributů. Pokud nebude nebezpečí nedorozumění, budeme používat výraz „asociační pravidlo“ nebo pouze „pravidlo“ i pro GUHA asociační pravidla.
Od devadesátých let minulého století je GUHA rozvíjena jako metoda pro dobývání znalostí z databází, viz článek The GUHA method and its meaning for data mining.
Podrobnosti o vztahu GUHA asociačních pravidel a asociačních pravidel jsou např. v článku Apriori and GUHA – Comparing two approaches to data mining with association rules. Teorie vyvinutá pro GUHA asociační pravidla zahrnuje i speciální přístup k práci s neúplnou informací. Jsou také k dispozici výsledky o teoretických vlastnostech asociačních pravidel. Dále používáme syntaxi zavedenou v knize Observational Calculi and Association Rules.
GUHA asociačním pravidlem rozumíme výraz φ≈ψ, kde
Booleovský atribut φ se nazývá antecedent, ψ je sukcedent (konsequent).
Určení, zda GUHA asociační pravidlo φ≈ψ je pravdivé v matici dat M se provádí na základě 4ft-tabulky 4ft(φ,ψ,M).
Je možno pracovat i s podmíněnými GUHA asociační pravidly φ≈ψ/χ kde χ je booleovský atribut.
4ft-tabulkou 4ft(φ,ψ,M) antecedentu φ a sukcedentu ψ pro matici dat M rozumíme čtveřici čísel ‹ a,b,c,d › kde
4ft-tabulka 4ft(φ,ψ,M) je často prezentována ve formě čtyřpolní tabulky dle následujícího obrázku.
Symbol „≈“ v GUHA asociačním pravidle φ≈ψ se nazývá 4ft-kvantifikátor.
Definuje podmínku týkající se čtveřic celých nezáporných čísel ‹ a,b,c,d ›.
Podmínka definovaná 4ft-kvantifikátorem ≈ je formalizována pomocí asociované funkce F≈
4ft-kvantifikátoru ≈ . Funkce F≈ přiřazuje každé čtveřici nezáporných celých
čísel
‹ a,b,c,d › hodnotu 1 (pokud podmínka je splněna) nebo 0 (pokud podmínka není splněna).
Příkladem je asociovaná funkce F→ 4ft-kvantifikátoru → s konfidencí C a supportem S. Tato funkce je definována takto:
4ft-kvantifikátory implementované v GUHA proceduře 4ft-Miner jsou popsány zde.
Pojem asociované funkce kvantifikátoru byl definován v knize Mechanizing hypothesis formation (Mathematical foundations for a general theory) a je používán i v knize Observational Calculi and Association Rules. Cílem je důsledně rozlišit mezi kvantifikátorem jako symbolem jazyka a jeho interpretací.
Pokud nebude nebezpečí nedorozumění, nebudeme pro jednoduchost dále rozlišovat 4ft-kvantifikátor od jeho asociované funkce. 4ft-kvantifikátor ≈ budeme tedy chápat i jako {0,1}-hodnotovou funkci definovanou pro čtveřice nezáporných celých čísel ‹ a,b,c,d ›. To znamená například
Pravdivost GUHA asociačního pravidla φ≈ψ v matici dat M je definována pomocí 4ft-tabulky 4ft(φ,ψ,M) = ‹a,b,c,d›:
Podmíněné GUHA asociační pravidlo je výraz φ≈ψ/χ kde φ≈ψ je asociační pravidlo a χ je booleovský atribut který nazýváme podmínkou. Booleovský atribut χ nemá žádný společný atribut s booleovskými atributy φ a ψ. Intuitivní význam podmíněného pravidla φ≈ψ/χ je, že pokud je splněna podmínka χ, pak asociační pravidlo φ≈ψ je pravdivé. Jinými slovy, podmíněné asociační pravidlo φ≈ψ/χ je pravdivé v matici dat M pokud asociační pravidlo φ≈ψ je pravdivé v matici dat M/χ.
Tomu odpovídá i definice:
GUHA asociačním pravidlem nadále rozumíme jak pravidlo φ≈ψ, tak i podmíněné pravidlo φ≈ψ/χ.