====== Maximum větší než daná mez - obecně ====== ===== Rekapitulace příkladu ===== V [[lm_guha_di_hist_max_prikl|příkladu]] jsme řešili analytickou otázku //Existuje skupina klientů a den v týdnu ve kterém převažují příjezdy klientů z této skupiny?// Otázku jsme transformovali do zadání procedury CF-Miner podle těchto zásad: - Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům klientů v hotelu. Využili jsme fakt, že kategorie atributu PDenTydne odpovídají dnům týdne a že jsou k dispozici atributy charakterizující klienty. - Pro definici relevantních skupin klientů jsme použili atributy H_Cizinec_b, HMesto, HStat ze skupiny Host/Bydliště a atribut MObloha ze skupiny atributů Meteo. - Jako dolní hranici počtu klientů ve skupině jsme stanovili 105 a jako dolní hranici pro to že nějaký den převažuje mezi dny týdne jsem určili 50%. - Tyto úvahy jsme vyjádřili pomocí parametrů ve sloupcích ATRIBUTES FOR HISTOGRAM, QUANTIFIERS a CONDITION ===== Zobecnění příkladu ===== Obecný postup počínaje formulací analytické otázky a končící stanovením úlohy pro proceduru CF-Miner lze s využitím příkladu popsat takto: * Vycházíme z matice dat jejíž některé sloupce - atributy charakterizují objekty našeho zájmu které nemusí odpovídat řádkům analyzované matice dat. V našem příkladu nás zajímají klienti hotelu, ale řádky matice HotelPlusExterni odpovídají pobytům klientů v hotelu. Dále budeme předpokládat, že atributy charakterizující objekty našeho zájmu jsou rozděleny do skupin **G1**,..., **GK**. * Mezi sloupci - atributy analyzované matice existuje atribut **A** takový, že je zajímavé znát všechny skupiny objektů našeho zájmu pro které existuje jedna kategorie atributu **A**, do které patří většina objektů ze skupiny. V příkladu hledáme skupinu klientů, pro které převažuje příjezd v jednom dni týdne. * Můžeme tedy formulovat analytickou otázku //Existuje skupina objektů a kategorie atributu **A** taková, že mezi objekty této skupiny převažují objekty této kategorie? // * Zbývá stanovit dolní hranici počtu objektů našeho zájmu ve skupině a také dolní hranici pro počet procent objektů ze skupiny, které musí spadat do jedné kategorie. Budeme předpokládat, že minimální počet objektů je MINOBJ a že dolní hranice pro počet procent je MINPROC. ===== Zadání procedury ===== Pro zadání parametrů procedury CF-Miner použijeme * atribut **A** a [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfcedent|obecné zásady pro zadávání atributů ve sloupci ATRIBUTES FOR HISTOGRAM]] * skupiny atributů **G1**,..., **GK** a [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings#zadani_podminky|obecné zásady pro zadávání podmínky ve sloupci CONDITION]] * Hodnoty MINOBJ a MINPROC pro zadání CF-kvantifikátorů SUM a MAX podle [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifier|obecných zásad pro zadávání CF-kvantifikátorů]], viz též následující odstavce. ===== CF-quantifier SUM ===== Použijeme [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifiersimple|Jednoduché frekvenční CF-kvantifikátory]], viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme: {{ ::histogram_max_zadani_minobj.png?800|}} * míru zajímavosti //Sum of frequencies// v rozbalovací nabídce //Interest measure type // * způsob výpočtu míry zajímavosti //Absolute number// v rozbalovací nabídce //Source frequencies // * celý histogram (rozpětí od 0 do 100 %) v //Category range // * operátor porovnání //Greater than or equal// v rozbalovací nabídce //Relation // * prahovou hodnotu MINOBJ v poli //Threshold value// * jednotky pro prahovou hodnotu //Absolute number// v rozbalovací nabídce //Threshold-value units// * oblast //Primary IM settings// nebudeme měnit. ===== CF-quantifier MAX ===== Použijeme [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifiersimple|Jednoduché frekvenční CF-kvantifikátory]], viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme: {{ ::histogram_max_zadani_minproc.png?800 |}} * míru zajímavosti //Max. frequency// v rozbalovací nabídce //Interest measure type // * způsob výpočtu míry zajímavosti //Absolute number// v rozbalovací nabídce //Source frequencies // * celý histogram (rozpětí od 0 do 100 %) v //Category range // * operátor porovnání //Greater than or equal// v rozbalovací nabídce //Relation // * prahovou hodnotu MINPROC v poli //Threshold value// * jednotky pro prahovou hodnotu //Relative [%] to act condition // v rozbalovací nabídce //Threshold-value units// * oblast //Primary IM settings// nebudeme měnit.