Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod


Data Hotel

Další data


Typové úlohy




Všechny řešené příklady


Řešené příklady s detaily na wiki

Histogramy na wiki

Asociační pravidla na wiki

Kontingenční tabulky na wiki

Dvojice asociačních pravidel


lm_guha_di_hist_max_obecne

Maximum větší než daná mez - obecně

Rekapitulace příkladu

V příkladu jsme řešili analytickou otázku Existuje skupina klientů a den v týdnu ve kterém převažují příjezdy klientů z této skupiny? Otázku jsme transformovali do zadání procedury CF-Miner podle těchto zásad:

  1. Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům klientů v hotelu. Využili jsme fakt, že kategorie atributu PDenTydne odpovídají dnům týdne a že jsou k dispozici atributy charakterizující klienty.
  2. Pro definici relevantních skupin klientů jsme použili atributy H_Cizinec_b, HMesto, HStat ze skupiny Host/Bydliště a atribut MObloha ze skupiny atributů Meteo.
  3. Jako dolní hranici počtu klientů ve skupině jsme stanovili 105 a jako dolní hranici pro to že nějaký den převažuje mezi dny týdne jsem určili 50%.
  4. Tyto úvahy jsme vyjádřili pomocí parametrů ve sloupcích ATRIBUTES FOR HISTOGRAM, QUANTIFIERS a CONDITION

Zobecnění příkladu

Obecný postup počínaje formulací analytické otázky a končící stanovením úlohy pro proceduru CF-Miner lze s využitím příkladu popsat takto:

  • Vycházíme z matice dat jejíž některé sloupce - atributy charakterizují objekty našeho zájmu které nemusí odpovídat řádkům analyzované matice dat. V našem příkladu nás zajímají klienti hotelu, ale řádky matice HotelPlusExterni odpovídají pobytům klientů v hotelu. Dále budeme předpokládat, že atributy charakterizující objekty našeho zájmu jsou rozděleny do skupin G1,…, GK.
  • Mezi sloupci - atributy analyzované matice existuje atribut A takový, že je zajímavé znát všechny skupiny objektů našeho zájmu pro které existuje jedna kategorie atributu A, do které patří většina objektů ze skupiny. V příkladu hledáme skupinu klientů, pro které převažuje příjezd v jednom dni týdne.
  • Můžeme tedy formulovat analytickou otázku Existuje skupina objektů a kategorie atributu A taková, že mezi objekty této skupiny převažují objekty této kategorie?
  • Zbývá stanovit dolní hranici počtu objektů našeho zájmu ve skupině a také dolní hranici pro počet procent objektů ze skupiny, které musí spadat do jedné kategorie. Budeme předpokládat, že minimální počet objektů je MINOBJ a že dolní hranice pro počet procent je MINPROC.

Zadání procedury

Pro zadání parametrů procedury CF-Miner použijeme

CF-quantifier SUM

Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:

  • míru zajímavosti Sum of frequencies v rozbalovací nabídce Interest measure type
  • způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
  • celý histogram (rozpětí od 0 do 100 %) v Category range
  • operátor porovnání Greater than or equal v rozbalovací nabídce Relation
  • prahovou hodnotu MINOBJ v poli Threshold value
  • jednotky pro prahovou hodnotu Absolute number v rozbalovací nabídce Threshold-value units
  • oblast Primary IM settings nebudeme měnit.

CF-quantifier MAX

Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:

  • míru zajímavosti Max. frequency v rozbalovací nabídce Interest measure type
  • způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
  • celý histogram (rozpětí od 0 do 100 %) v Category range
  • operátor porovnání Greater than or equal v rozbalovací nabídce Relation
  • prahovou hodnotu MINPROC v poli Threshold value
  • jednotky pro prahovou hodnotu Relative [%] to act condition v rozbalovací nabídce Threshold-value units
  • oblast Primary IM settings nebudeme měnit.
lm_guha_di_hist_max_obecne.txt · Poslední úprava: 2018/09/01 13:46 (upraveno mimo DokuWiki)