====== Histogram roste - obecně ====== ===== Rekapitulace příkladu ===== V [[lm_guha_di_hist_roste_priklad|příkladu]] jsme řešili analytickou otázku // Existuje skupina klientů, pro kterou je histogram atributu DHodnocení rostoucí?// Otázku jsme transformovali do zadání procedury CF-Miner podle těchto zásad: - Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům klientů v hotelu. Využili jsme fakt, že jsou k dispozici atributy charakterizující klienty. - Pro definici relevantních skupin klientů jsme použili atributy PNoci_enum_m, POsob, POsobonoci_ef5 a PDenTydne ze skupiny Pobyt, HPohlavi a HVek_exp ze skupiny Host, H_Cizinec_b, HMesto, HStat ze skupiny Host/Bydliště a MObloha a MTeplota_exp ze skupiny atributů Meteo. - Jako dolní hranici počtu klientů ve skupině jsme stanovili 100. - To, že je histogram rostoucí jsme vyjádřili podmínkami na počet schodů nahoru a na minimální výškou schodu. Podmínka na počet schodů je, že jejich počet je roven počtu kategorií minus jedna, výška schodů musí být minimálně 10. - Tyto úvahy jsme vyjádřili pomocí parametrů ve sloupcích ATRIBUTES FOR HISTOGRAM, QUANTIFIERS a CONDITION ===== Zobecnění příkladu ===== Obecný postup počínaje formulací analytické otázky a končící stanovením úlohy pro proceduru CF-Miner lze s využitím příkladu popsat takto: * Vycházíme z matice dat jejíž některé sloupce - atributy charakterizují objekty našeho zájmu které nemusí odpovídat řádkům analyzované matice dat. V našem příkladu nás zajímají klienti hotelu, ale řádky matice HotelPlusExterni odpovídají pobytům klientů v hotelu. Dále budeme předpokládat, že atributy charakterizující objekty našeho zájmu jsou rozděleny do skupin **G1**,..., **GK**. * Mezi sloupci - atributy analyzované matice existuje ordinální atribut **A** takový, že je zajímavé znát všechny skupiny objektů našeho zájmu, pro které je histogram procentuálního rozložení objektů mezi kategorie atributu **A** rostoucí. V příkladu hledáme skupinu klientů, pro které je rostoucí histogram atributu DHodnocení. * Můžeme tedy formulovat analytickou otázku //Existuje skupina objektů pro kterou je histogram atributu **A** rostoucí? // * Zbývá stanovit dolní hranici počtu objektů našeho zájmu ve skupině a minimální výšku schodů. Počet schodů musí být roven počtu kategorií atributu **A** minus jedna. Budeme předpokládat, že minimální počet objektů je MINOBJ, minimální výška schodu je MINVYS a že atribut **A** má NKAT kategorií. ===== Zadání procedury ===== Pro zadání parametrů procedury CF-Miner použijeme * atribut **A** a [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfcedent|obecné zásady pro zadávání atributů ve sloupci ATRIBUTES FOR HISTOGRAM]] * skupiny atributů **G1**,..., **GK** a [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings#zadani_podminky|obecné zásady pro zadávání podmínky ve sloupci CONDITION]] * Hodnoty MINOBJ, NKAT a MINVYS pro zadání CF-kvantifikátorů SUM a S-UP podle [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifier|obecných zásad pro zadávání CF-kvantifikátorů]], viz též následující odstavce. ===== CF-quantifier SUM ===== Použijeme [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifiersimple|Jednoduché frekvenční CF-kvantifikátory]], viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme: {{ ::histogram_max_zadani_minobj.png?800|}} * míru zajímavosti //Sum of frequencies// v rozbalovací nabídce //Interest measure type // * způsob výpočtu míry zajímavosti //Absolute number// v rozbalovací nabídce //Source frequencies // * celý histogram (rozpětí od 0 do 100 %) v //Category range // * operátor porovnání //Greater than or equal// v rozbalovací nabídce //Relation // * prahovou hodnotu MINOBJ v poli //Threshold value// * jednotky pro prahovou hodnotu //Absolute number// v rozbalovací nabídce //Threshold-value units// * oblast //Primary IM settings// nebudeme měnit. ===== CF-quantifier S-UP ===== Použijeme [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifierstep|CF-kvantifikátory typu Schody nahoru/dolů]], viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme: {{ ::histogram_schody_nahoru_zadani_s-up.png?800 |}} * volbu //Steps-up// v rozbalovací nabídce //Step type // * source frequencies //Relative [%] to act condition// v rozbalovací nabídce //Source frequencies // * celý histogram (rozpětí od 0 do 100 %) v //Category range // * operátor porovnání //Equal// v rozbalovací nabídce //Relation // * hodnotu NKAT-1 v poli //Step-count threshold value// * jednotky pro počet schodů //Absolute value // v rozbalovací nabídce //Step-count units// * hodnotu MINVYS v poli //Minimal step size// * volbu //Absolute value // v rozbalovací nabídce //Minimal step-size units// * oblast //Primary IM settings// nebudeme měnit.