Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod


Data Hotel

Další data


Typové úlohy




Všechny řešené příklady


Řešené příklady s detaily na wiki

Histogramy na wiki

Asociační pravidla na wiki

Kontingenční tabulky na wiki

Dvojice asociačních pravidel


lm_guha_di_hist_mami_obecne

Výška sloupců v daných mezích - obecně

Rekapitulace příkladu

V příkladu jsme řešili analytickou otázku Existuje skupina klientů, která přijíždí zhruba ve stejném zastoupení každý den v týdnu? Otázku jsme transformovali do zadání procedury CF-Miner podle těchto zásad:

  1. Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům klientů v hotelu. Využili jsme fakt, že kategorie atributu PDenTydne odpovídají dnům týdne a že jsou k dispozici atributy charakterizující klienty.
  2. Pro definici relevantních skupin klientů jsme použili atributy PNoci_enum_m, POsob, POsobonoci_ef5 ze skupiny Pobyt, HPohlavi a HVek_exp ze skupiny Host, H_Cizinec_b, HMesto, HStat ze skupiny Host/Bydliště a MObloha a MTeplota_exp ze skupiny atributů Meteo.
  3. Jako dolní hranici počtu klientů ve skupině jsme stanovili 105.
  4. To, že klienti přijíždí zhruba ve stejném zastoupení každý den v týdnu jsme vyjádřili pomocí minimálního a maximálního procenta klientů přijíždějících v jednotlivých dnech týdne. Jako dolní hranici jsme použili 10 procent a jako horní hranici 20 procent.
  5. Tyto úvahy jsme vyjádřili pomocí parametrů ve sloupcích ATRIBUTES FOR HISTOGRAM, QUANTIFIERS a CONDITION

Zobecnění příkladu

Obecný postup počínaje formulací analytické otázky a končící stanovením úlohy pro proceduru CF-Miner lze s využitím příkladu popsat takto:

  • Vycházíme z matice dat jejíž některé sloupce - atributy charakterizují objekty našeho zájmu které nemusí odpovídat řádkům analyzované matice dat. V našem příkladu nás zajímají klienti hotelu, ale řádky matice HotelPlusExterni odpovídají pobytům klientů v hotelu. Dále budeme předpokládat, že atributy charakterizující objekty našeho zájmu jsou rozděleny do skupin G1,…, GK.
  • Mezi sloupci - atributy analyzované matice existuje atribut A takový, že je zajímavé znát všechny skupiny objektů našeho zájmu, které jsou rozloženy zhruba rovnoměrně mezi jednotlivé kategorie atributu A. V příkladu hledáme skupinu klientů, kteří přijíždí zhruba ve stejném zastoupení každý den v týdnu.
  • Můžeme tedy formulovat analytickou otázku Existuje skupina objektů taková, že její objekty jsou rozloženy zhruba rovnoměrně mezi kategorie atributu A?
  • Zbývá stanovit dolní hranici počtu objektů našeho zájmu ve skupině, minimální a maximální počet procent objektů ze skupiny, které musí spadat do každé kategorie. Budeme předpokládat, že minimální počet objektů je MINOBJ, minimální počet procent je MINPROC a maximální počet procent je MAXPROC.

Zadání procedury

Pro zadání parametrů procedury CF-Miner použijeme

CF-quantifier SUM

Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:

  • míru zajímavosti Sum of frequencies v rozbalovací nabídce Interest measure type
  • způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
  • celý histogram (rozpětí od 0 do 100 %) v Category range
  • operátor porovnání Greater than or equal v rozbalovací nabídce Relation
  • prahovou hodnotu MINOBJ v poli Threshold value
  • jednotky pro prahovou hodnotu Absolute number v rozbalovací nabídce Threshold-value units
  • oblast Primary IM settings nebudeme měnit.

CF-quantifier MIN

Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:

  • míru zajímavosti Min. frequency v rozbalovací nabídce Interest measure type
  • způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
  • celý histogram (rozpětí od 0 do 100 %) v Category range
  • operátor porovnání Greater than or equal v rozbalovací nabídce Relation
  • prahovou hodnotu MINPROC v poli Threshold value
  • jednotky pro prahovou hodnotu Relative [%] to act condition v rozbalovací nabídce Threshold-value units
  • oblast Primary IM settings nebudeme měnit.

CF-quantifier MAX

Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:

  • míru zajímavosti Max. frequency v rozbalovací nabídce Interest measure type
  • způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
  • celý histogram (rozpětí od 0 do 100 %) v Category range
  • operátor porovnání Less than or equal v rozbalovací nabídce Relation
  • prahovou hodnotu MAXPROC v poli Threshold value
  • jednotky pro prahovou hodnotu Relative [%] to act condition v rozbalovací nabídce Threshold-value units
  • oblast Primary IM settings nebudeme měnit.
lm_guha_di_hist_mami_obecne.txt · Poslední úprava: 2018/09/01 13:47 (upraveno mimo DokuWiki)