====== Výška sloupců v daných mezích - obecně ====== ===== Rekapitulace příkladu ===== V [[lm_guha_di_hist_mami_priklad|příkladu]] jsme řešili analytickou otázku // Existuje skupina klientů, která přijíždí zhruba ve stejném zastoupení každý den v týdnu?// Otázku jsme transformovali do zadání procedury CF-Miner podle těchto zásad: - Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům klientů v hotelu. Využili jsme fakt, že kategorie atributu PDenTydne odpovídají dnům týdne a že jsou k dispozici atributy charakterizující klienty. - Pro definici relevantních skupin klientů jsme použili atributy PNoci_enum_m, POsob, POsobonoci_ef5 ze skupiny Pobyt, HPohlavi a HVek_exp ze skupiny Host, H_Cizinec_b, HMesto, HStat ze skupiny Host/Bydliště a MObloha a MTeplota_exp ze skupiny atributů Meteo. - Jako dolní hranici počtu klientů ve skupině jsme stanovili 105. - To, že klienti přijíždí zhruba ve stejném zastoupení každý den v týdnu jsme vyjádřili pomocí minimálního a maximálního procenta klientů přijíždějících v jednotlivých dnech týdne. Jako dolní hranici jsme použili 10 procent a jako horní hranici 20 procent. - Tyto úvahy jsme vyjádřili pomocí parametrů ve sloupcích ATRIBUTES FOR HISTOGRAM, QUANTIFIERS a CONDITION ===== Zobecnění příkladu ===== Obecný postup počínaje formulací analytické otázky a končící stanovením úlohy pro proceduru CF-Miner lze s využitím příkladu popsat takto: * Vycházíme z matice dat jejíž některé sloupce - atributy charakterizují objekty našeho zájmu které nemusí odpovídat řádkům analyzované matice dat. V našem příkladu nás zajímají klienti hotelu, ale řádky matice HotelPlusExterni odpovídají pobytům klientů v hotelu. Dále budeme předpokládat, že atributy charakterizující objekty našeho zájmu jsou rozděleny do skupin **G1**,..., **GK**. * Mezi sloupci - atributy analyzované matice existuje atribut **A** takový, že je zajímavé znát všechny skupiny objektů našeho zájmu, které jsou rozloženy zhruba rovnoměrně mezi jednotlivé kategorie atributu **A**. V příkladu hledáme skupinu klientů, kteří přijíždí zhruba ve stejném zastoupení každý den v týdnu. * Můžeme tedy formulovat analytickou otázku //Existuje skupina objektů taková, že její objekty jsou rozloženy zhruba rovnoměrně mezi kategorie atributu **A**? // * Zbývá stanovit dolní hranici počtu objektů našeho zájmu ve skupině, minimální a maximální počet procent objektů ze skupiny, které musí spadat do každé kategorie. Budeme předpokládat, že minimální počet objektů je MINOBJ, minimální počet procent je MINPROC a maximální počet procent je MAXPROC. ===== Zadání procedury ===== Pro zadání parametrů procedury CF-Miner použijeme * atribut **A** a [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfcedent|obecné zásady pro zadávání atributů ve sloupci ATRIBUTES FOR HISTOGRAM]] * skupiny atributů **G1**,..., **GK** a [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings#zadani_podminky|obecné zásady pro zadávání podmínky ve sloupci CONDITION]] * Hodnoty MINOBJ, MINPROC a MAXPROC pro zadání CF-kvantifikátorů SUM, MIN a MAX podle [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifier|obecných zásad pro zadávání CF-kvantifikátorů]], viz též následující odstavce. ===== CF-quantifier SUM ===== Použijeme [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifiersimple|Jednoduché frekvenční CF-kvantifikátory]], viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme: {{ ::histogram_max_zadani_minobj.png?800|}} * míru zajímavosti //Sum of frequencies// v rozbalovací nabídce //Interest measure type // * způsob výpočtu míry zajímavosti //Absolute number// v rozbalovací nabídce //Source frequencies // * celý histogram (rozpětí od 0 do 100 %) v //Category range // * operátor porovnání //Greater than or equal// v rozbalovací nabídce //Relation // * prahovou hodnotu MINOBJ v poli //Threshold value// * jednotky pro prahovou hodnotu //Absolute number// v rozbalovací nabídce //Threshold-value units// * oblast //Primary IM settings// nebudeme měnit. ===== CF-quantifier MIN ===== Použijeme [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifiersimple|Jednoduché frekvenční CF-kvantifikátory]], viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme: {{ ::cf-quantifier_min_pro_dane_meze.png?800 |}} * míru zajímavosti //Min. frequency// v rozbalovací nabídce //Interest measure type // * způsob výpočtu míry zajímavosti //Absolute number// v rozbalovací nabídce //Source frequencies // * celý histogram (rozpětí od 0 do 100 %) v //Category range // * operátor porovnání //Greater than or equal// v rozbalovací nabídce //Relation // * prahovou hodnotu MINPROC v poli //Threshold value// * jednotky pro prahovou hodnotu //Relative [%] to act condition // v rozbalovací nabídce //Threshold-value units// * oblast //Primary IM settings// nebudeme měnit. ===== CF-quantifier MAX ===== Použijeme [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifiersimple|Jednoduché frekvenční CF-kvantifikátory]], viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme: {{ ::cf-quantifier_max_pro_dane_meze.png?800 |}} * míru zajímavosti //Max. frequency// v rozbalovací nabídce //Interest measure type // * způsob výpočtu míry zajímavosti //Absolute number// v rozbalovací nabídce //Source frequencies // * celý histogram (rozpětí od 0 do 100 %) v //Category range // * operátor porovnání //Less than or equal// v rozbalovací nabídce //Relation // * prahovou hodnotu MAXPROC v poli //Threshold value// * jednotky pro prahovou hodnotu //Relative [%] to act condition // v rozbalovací nabídce //Threshold-value units// * oblast //Primary IM settings// nebudeme měnit.