Histogram klesá - obecně
Rekapitulace příkladu
V příkladu jsme řešili analytickou otázku Existuje skupina klientů, pro kterou je histogram atributu DHodnocení klesající?
Otázku jsme transformovali do zadání procedury CF-Miner podle těchto zásad:
Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům klientů v hotelu. Využili jsme fakt, že jsou k dispozici atributy charakterizující klienty.
Pro definici relevantních skupin klientů jsme použili atributy PNoci_enum_m, POsob, POsobonoci_ef5 a PDenTydne ze skupiny Pobyt, HPohlavi a HVek_exp ze skupiny Host, H_Cizinec_b, HMesto, HStat ze skupiny Host/Bydliště a MObloha a MTeplota_exp ze skupiny atributů Meteo.
Jako dolní hranici počtu klientů ve skupině jsme stanovili 100.
To, že je histogram rostoucí jsme vyjádřili podmínkami na počet schodů dolů a na minimální výškou schodu. Podmínka na počet schodů je, že jejich počet je roven počtu kategorií minus jedna, výška schodů musí být minimálně 10.
Tyto úvahy jsme vyjádřili pomocí parametrů ve sloupcích ATRIBUTES FOR HISTOGRAM, QUANTIFIERS a CONDITION
Zobecnění příkladu
Obecný postup počínaje formulací analytické otázky a končící stanovením úlohy pro proceduru CF-Miner lze s využitím příkladu popsat takto:
Vycházíme z matice dat jejíž některé sloupce - atributy charakterizují objekty našeho zájmu které nemusí odpovídat řádkům analyzované matice dat. V našem příkladu nás zajímají klienti hotelu, ale řádky matice HotelPlusExterni odpovídají pobytům klientů v hotelu. Dále budeme předpokládat, že atributy charakterizující objekty našeho zájmu jsou rozděleny do skupin G1,…, GK.
Mezi sloupci - atributy analyzované matice existuje ordinální atribut A takový, že je zajímavé znát všechny skupiny objektů našeho zájmu, pro které je histogram procentuálního rozložení objektů mezi kategorie atributu A klesající. V příkladu hledáme skupinu klientů, pro které je klesající histogram atributu DHodnocení.
Můžeme tedy formulovat analytickou otázku Existuje skupina objektů pro kterou je histogram atributu A klesající?
Zbývá stanovit dolní hranici počtu objektů našeho zájmu ve skupině a minimální výšku schodů. Počet schodů musí být roven počtu kategorií atributu A minus jedna. Budeme předpokládat, že minimální počet objektů je MINOBJ, minimální výška schodu je MINVYS a že atribut A má NKAT kategorií.
Zadání procedury
Pro zadání parametrů procedury CF-Miner použijeme
CF-quantifier SUM
Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:
míru zajímavosti Sum of frequencies v rozbalovací nabídce Interest measure type
způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
celý histogram (rozpětí od 0 do 100 %) v Category range
operátor porovnání Greater than or equal v rozbalovací nabídce Relation
prahovou hodnotu MINOBJ v poli Threshold value
jednotky pro prahovou hodnotu Absolute number v rozbalovací nabídce Threshold-value units
oblast Primary IM settings nebudeme měnit.
CF-quantifier S-UP
Použijeme CF-kvantifikátory typu Schody nahoru/dolů, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:
volbu Steps-down v rozbalovací nabídce Step type
source frequencies Relative [%] to act condition v rozbalovací nabídce Source frequencies
celý histogram (rozpětí od 0 do 100 %) v Category range
operátor porovnání Equal v rozbalovací nabídce Relation
hodnotu NKAT-1 v poli Step-count threshold value
jednotky pro počet schodů Absolute value v rozbalovací nabídce Step-count units
hodnotu MINVYS v poli Minimal step size
volbu Absolute value v rozbalovací nabídce Minimal step-size units
oblast Primary IM settings nebudeme měnit.