Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod


Data Hotel

Další data


Typové úlohy




Všechny řešené příklady


Řešené příklady s detaily na wiki

Histogramy na wiki

Asociační pravidla na wiki

Kontingenční tabulky na wiki

Dvojice asociačních pravidel


lm_guha_di_hist_roste_obecne

Histogram roste - obecně

Rekapitulace příkladu

V příkladu jsme řešili analytickou otázku Existuje skupina klientů, pro kterou je histogram atributu DHodnocení rostoucí? Otázku jsme transformovali do zadání procedury CF-Miner podle těchto zásad:

  1. Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům klientů v hotelu. Využili jsme fakt, že jsou k dispozici atributy charakterizující klienty.
  2. Pro definici relevantních skupin klientů jsme použili atributy PNoci_enum_m, POsob, POsobonoci_ef5 a PDenTydne ze skupiny Pobyt, HPohlavi a HVek_exp ze skupiny Host, H_Cizinec_b, HMesto, HStat ze skupiny Host/Bydliště a MObloha a MTeplota_exp ze skupiny atributů Meteo.
  3. Jako dolní hranici počtu klientů ve skupině jsme stanovili 100.
  4. To, že je histogram rostoucí jsme vyjádřili podmínkami na počet schodů nahoru a na minimální výškou schodu. Podmínka na počet schodů je, že jejich počet je roven počtu kategorií minus jedna, výška schodů musí být minimálně 10.
  5. Tyto úvahy jsme vyjádřili pomocí parametrů ve sloupcích ATRIBUTES FOR HISTOGRAM, QUANTIFIERS a CONDITION

Zobecnění příkladu

Obecný postup počínaje formulací analytické otázky a končící stanovením úlohy pro proceduru CF-Miner lze s využitím příkladu popsat takto:

  • Vycházíme z matice dat jejíž některé sloupce - atributy charakterizují objekty našeho zájmu které nemusí odpovídat řádkům analyzované matice dat. V našem příkladu nás zajímají klienti hotelu, ale řádky matice HotelPlusExterni odpovídají pobytům klientů v hotelu. Dále budeme předpokládat, že atributy charakterizující objekty našeho zájmu jsou rozděleny do skupin G1,…, GK.
  • Mezi sloupci - atributy analyzované matice existuje ordinální atribut A takový, že je zajímavé znát všechny skupiny objektů našeho zájmu, pro které je histogram procentuálního rozložení objektů mezi kategorie atributu A rostoucí. V příkladu hledáme skupinu klientů, pro které je rostoucí histogram atributu DHodnocení.
  • Můžeme tedy formulovat analytickou otázku Existuje skupina objektů pro kterou je histogram atributu A rostoucí?
  • Zbývá stanovit dolní hranici počtu objektů našeho zájmu ve skupině a minimální výšku schodů. Počet schodů musí být roven počtu kategorií atributu A minus jedna. Budeme předpokládat, že minimální počet objektů je MINOBJ, minimální výška schodu je MINVYS a že atribut A má NKAT kategorií.

Zadání procedury

Pro zadání parametrů procedury CF-Miner použijeme

CF-quantifier SUM

Použijeme Jednoduché frekvenční CF-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:

  • míru zajímavosti Sum of frequencies v rozbalovací nabídce Interest measure type
  • způsob výpočtu míry zajímavosti Absolute number v rozbalovací nabídce Source frequencies
  • celý histogram (rozpětí od 0 do 100 %) v Category range
  • operátor porovnání Greater than or equal v rozbalovací nabídce Relation
  • prahovou hodnotu MINOBJ v poli Threshold value
  • jednotky pro prahovou hodnotu Absolute number v rozbalovací nabídce Threshold-value units
  • oblast Primary IM settings nebudeme měnit.

CF-quantifier S-UP

Použijeme CF-kvantifikátory typu Schody nahoru/dolů, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:

  • volbu Steps-up v rozbalovací nabídce Step type
  • source frequencies Relative [%] to act condition v rozbalovací nabídce Source frequencies
  • celý histogram (rozpětí od 0 do 100 %) v Category range
  • operátor porovnání Equal v rozbalovací nabídce Relation
  • hodnotu NKAT-1 v poli Step-count threshold value
  • jednotky pro počet schodů Absolute value v rozbalovací nabídce Step-count units
  • hodnotu MINVYS v poli Minimal step size
  • volbu Absolute value v rozbalovací nabídce Minimal step-size units
  • oblast Primary IM settings nebudeme měnit.
lm_guha_di_hist_roste_obecne.txt · Poslední úprava: 2018/09/01 13:47 (upraveno mimo DokuWiki)