Obsah

Asociační pravidla - příklady aplikací procedury 4ft-Miner

Asociační pravidla - příklady aplikací procedury 4ft-Miner

Dále jsou uvedeny příklady aplikací procedury 4ft-Miner. Procedura pracuje s GUHA asociačními pravidly, která jsou obecnější než asociační pravidla poskytovaná algoritmem apriori. Jsou k dispozici jak příklady popsané na stránkách wiki LISp-Miner a této wiki, tak i příklady popsané v souborech pdf na které je z této wiki odkazováno.

Piktogramy u jednotlivých příkladů naznačují, které z typových úloh jednotlivé příklady řeší.

Příklady popsané ve wiki LISp-Miner a v této wiki

Příklad 1 - Vyplývají z místa bydliště hosta nějaké typické parametry pobytu, případně i počasí? A to obecně i zvlášť pro rekreační a služební pobyty. uvedený ve wiki Systém LISp-Miner.

Příklad 2 - Pravidla s vysokou konfidencí, k tomuto příkladu je k dispozici i obecný postup pro řešení úloh stejného typu.

Příklad 3 - Nárůst relativní četnosti, k tomuto příkladu je k dispozici i obecný postup pro řešení úloh stejného typu.

Příklad 4 - 4ft-kvantifikátory BASE a support.

Příklady popsané v souborech pdf

Příklady popsané v souborech pdf jsou rozděleny do skupin podle toho, jaké typy úloh řeší. Piktogramy naznačují dílčí typy úloh. Příklady jsou rozděleny do několika skupin:

Asociační pravidla s vysokou konfidencí nebo liftem

Data Hotel - vysoká konfidence

Příklad se týká dat Hotel a řeší problém: Vyplývají z místa bydliště hosta nějaké typické parametry pobytu, případně i počasí? Příklad je podobný příkladu 2. Podrobnosti k příkladu jsou zde.

Data Stulong - vysoký lift

Příklad se týká dat Stulong a řeší problém: Existuje skupina pacientů definovaná pomocí osobních údajů, spotřeby alkoholu, cukru, kávy a čaje taková, že relativní četnost pacientů s rizikem obezity je v této skupině o 50 % větší než v celém souboru a zároveň počet pacientů ze skupiny s rizikem obezity je minimálně 30? Podrobnosti k příkladu jsou zde.

Data Traffic Maryland - využití disjunkcí 1

Příklad se týká dat Traffic Maryland a řeší problém: Jací řidiči vykazují velkou pravděpodobnost nějaké chyby spojené s vážnou nehodou? Podrobnosti k příkladu jsou zde.

Data Traffic Maryland - využití disjunkcí 2

Příklad se týká dat Traffic Maryland a řeší problém: Jací řidiči mají za špatného počasí velkou pravděpodobnost vážné nehody? Podrobnosti k příkladu jsou zde.

Asociační pravidla - výjimky z histogramu

Data Insolvency - konfidence nižší, než odpovídá sloupci histogramu na celé matici dat

Příklad se týká dat Insolvency a řeší problém: Hledáme pravidla φ → Days_to_start(a_i) taková, že jejich konfidence je alespoň čtyřikrát nižší, než odpovídá výšce sloupce a_i v histogramu na celé matici dat. Podrobnosti k příkladu jsou zde.

Data Hotel - konfidence vyšší, než odpovídá sloupci histogramu na podmatici dat

Příklad se týká dat Insolvency a řeší problém: Hledáme pravidla φ → Days_to_start(a_i) taková, že jejich konfidence je alespoň dvakrát vyšší, než odpovídá výšce sloupce a_i v histogramu na dané podmatici dat. Podrobnosti k příkladu jsou zde.

Podmíněná asociační pravidla

Data Hotel - fundovaná vysoká konfidence, podmíněná pravidla

Příklad se týká dat Hotel a řeší problém: Vyplývají z místa bydliště hosta nějaké typické parametry pobytu, případně i počasí? A to obecně i zvlášť pro rekreační a služební pobyty. Příklad je inspirován příkladem 1. Podrobnosti k příkladu jsou zde.

Data Hotel - vysoká konfidence se supportem, podmíněná pravidla

BUDE DOPLŇENO

Data Hotel - vysoký lift, podmíněná pravidla

BUDE DOPLŇENO

Výrazná změna liftu prodloužením antecedentu

Data Accidents - snížení hodnoty liftu pod hodnotu 1 prodloužením antecedentu

Příklad se týká dat Accidents a problému: Existuje podmínka P, dodatečná podmínka D a závažnost Z nehody takové, že zároveň platí:

relativní četnost nehod se závažností Z za podmínky P je vyšší než relativní četnost poruch se závažnosti Z mezi všemi nehodami
relativní četnost nehod se závažností Z je za současné platnosti podmínky P i dodatečné podmínky D nižší, než je relativní četnost nehod se závažnosti Z mezi všemi nehodami?

Podrobnosti k příkladu jsou zde.

Porovnání procedury 4ft-Miner a arules package v R

V rámci porovnání procedury 4ft-Miner a arules package v R je nejprve řešena stejná úloha jak pomocí procedury 4ft-Miner, tak pomocí arules package v systému R. Další příklad ukazuje, že pomocí koeficientů základních booleovských atributů lze procedurou 4ft-Miner řešit úlohy, které prakticky nelze řešit v arules. V posledním příkladu je porovnán přístup k neúplné informaci v GUHA proceduře 4ft-Miner a v arules.

Podrobnější informace jsou v článku Apriori and GUHA – Comparing two approaches to data mining with association rules.

Data Adult - stejná úloha ve 4ft-Miner a v arules

Příklad se týká dat Adult a řeší problém: Nalézt všechna asociační pravidla X → Y tak, že conf (X → Y) ≥ 0.95 a sup(X → Y) ≥ 0.45. Podrobnosti k příkladu jsou zde.

Data Adult - využití koeficientů

Příklad se týká dat Adult a řeší problémy: Hledání segmentů osob s extrémními hodnotami zisku a Hledání segmentů osob s extrémními hodnotami zisku a zároveň s vysokým příjmem. Podrobnosti k příkladu jsou zde.

Data Adult - chybějící informace

Příklad se týká dat Adult a řeší problém: Porovnání práce s neúplnou informací v GUHA proceduře 4ft-Miner a v arules package který je součástí systému R. Podrobnosti k příkladu jsou zde.

Práce s doménovou znalostí a automatizace

Data Stulong - automatické odfiltrování důsledků doménové znalosti

Příklad se týká dat Stulong a řeší problém: Automatické odfiltrování asociačních pravidel -důsledků doménové znalosti. Podrobnosti k příkladu jsou zde. Další informace jsou v článku Learning Association Rules from Data through Domain Knowledge and Automation.

Data Adult - využití expertních dedukčních pravidel

Příklad se týká dat Adult a řeší problém: Definice a využití expertních pravidel pro odfiltrování nezajímavých asociačních pravidel. Podrobnosti k příkladu jsou zde BUDE DOPLŇENO. Další informace jsou v článku Expert deduction rules in data mining with association rules: a case study.