Výška sloupců v daných mezích - obecně
Rekapitulace příkladu
V příkladu jsme řešili analytickou otázku Existuje skupina klientů, která přijíždí zhruba ve stejném zastoupení každý den v týdnu?
Otázku jsme transformovali do zadání procedury CF-Miner podle těchto zásad:
Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům klientů v hotelu. Využili jsme fakt, že kategorie atributu PDenTydne odpovídají dnům týdne a že jsou k dispozici atributy charakterizující klienty.
Pro definici relevantních skupin klientů jsme použili atributy PNoci_enum_m, POsob, POsobonoci_ef5 ze skupiny Pobyt, HPohlavi a HVek_exp ze skupiny Host, H_Cizinec_b, HMesto, HStat ze skupiny Host/Bydliště a MObloha a MTeplota_exp ze skupiny atributů Meteo.
Jako dolní hranici počtu klientů ve skupině jsme stanovili 105.
To, že klienti přijíždí zhruba ve stejném zastoupení každý den v týdnu jsme vyjádřili pomocí minimálního a maximálního procenta klientů přijíždějících v jednotlivých dnech týdne. Jako dolní hranici jsme použili 10 procent a jako horní hranici 20 procent.
Tyto úvahy jsme vyjádřili pomocí parametrů ve sloupcích ATRIBUTES FOR HISTOGRAM, QUANTIFIERS a CONDITION
Zobecnění příkladu
Obecný postup počínaje formulací analytické otázky a končící stanovením úlohy pro proceduru CF-Miner lze s využitím příkladu popsat takto:
Vycházíme z matice dat jejíž některé sloupce - atributy charakterizují objekty našeho zájmu které nemusí odpovídat řádkům analyzované matice dat. V našem příkladu nás zajímají klienti hotelu, ale řádky matice HotelPlusExterni odpovídají pobytům klientů v hotelu. Dále budeme předpokládat, že atributy charakterizující objekty našeho zájmu jsou rozděleny do skupin G1,…, GK.
Mezi sloupci - atributy analyzované matice existuje atribut A takový, že je zajímavé znát všechny skupiny objektů našeho zájmu, které jsou rozloženy zhruba rovnoměrně mezi jednotlivé kategorie atributu A. V příkladu hledáme skupinu klientů, kteří přijíždí zhruba ve stejném zastoupení každý den v týdnu.
Můžeme tedy formulovat analytickou otázku Existuje skupina objektů taková, že její objekty jsou rozloženy zhruba rovnoměrně mezi kategorie atributu A?
Zbývá stanovit dolní hranici počtu objektů našeho zájmu ve skupině, minimální a maximální počet procent objektů ze skupiny, které musí spadat do každé kategorie. Budeme předpokládat, že minimální počet objektů je MINOBJ, minimální počet procent je MINPROC a maximální počet procent je MAXPROC.
Zadání procedury
Pro zadání parametrů procedury CF-Miner použijeme
CF-quantifier SUM
Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:
míru zajímavosti Sum of frequencies v rozbalovací nabídce Interest measure type
způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
celý histogram (rozpětí od 0 do 100 %) v Category range
operátor porovnání Greater than or equal v rozbalovací nabídce Relation
prahovou hodnotu MINOBJ v poli Threshold value
jednotky pro prahovou hodnotu Absolute number v rozbalovací nabídce Threshold-value units
oblast Primary IM settings nebudeme měnit.
CF-quantifier MIN
Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:
míru zajímavosti Min. frequency v rozbalovací nabídce Interest measure type
způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
celý histogram (rozpětí od 0 do 100 %) v Category range
operátor porovnání Greater than or equal v rozbalovací nabídce Relation
prahovou hodnotu MINPROC v poli Threshold value
jednotky pro prahovou hodnotu Relative [%] to act condition v rozbalovací nabídce Threshold-value units
oblast Primary IM settings nebudeme měnit.
CF-quantifier MAX
Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:
míru zajímavosti Max. frequency v rozbalovací nabídce Interest measure type
způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
celý histogram (rozpětí od 0 do 100 %) v Category range
operátor porovnání Less than or equal v rozbalovací nabídce Relation
prahovou hodnotu MAXPROC v poli Threshold value
jednotky pro prahovou hodnotu Relative [%] to act condition v rozbalovací nabídce Threshold-value units
oblast Primary IM settings nebudeme měnit.