Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod


Data Hotel

Další data


Typové úlohy




Všechny řešené příklady


Řešené příklady s detaily na wiki

Histogramy na wiki

Asociační pravidla na wiki

Kontingenční tabulky na wiki

Dvojice asociačních pravidel


lm_guha_di_sd4ft_conf_rozdil_obecne

Vysoký rozdíl konfidencí - obecně

Rekapitulace příkladu

V příkladu jsme řešili analytickou otázku Jsou významné rozdíly mezi jednotlivými státy ohledně vztahů mezi charakteristikami hosta (pohlaví, věk) a typickými parametry odpovědí v dotazníku pobytu? Symbolicky můžeme otázku zapsat jako Stát(?) x Stát(?) [Host ≈ Dotazník]. Otázku jsme transformovali do zadání procedury SD4ft-Miner podle těchto zásad:

  1. Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům hostů v hotelu.
  2. Otázku jsme upřesnili takto: Existují takové skupiny hostů, že pro některou dvojici států je rozdíl procentuálních podílů některé kombinace výsledků v dotazníku větší než daná mez?
  3. Upřesnění jsme vyjádřili pomocí dvou podmíněných asociačních pravidel lišících se pouze podmínkou. Otázku jsme následně formalizovali pomocí dvou čtyřpolních tabulek.
  4. Analytickou otázku jsme vyjádřili pomocí parametrů procedury SD4ft-Miner.
  5. Podstatným způsobem jsme využili možnosti zadávání relevantních podmínek.

Zobecnění příkladu

Obecný postup počínaje formulací analytické otázky a konče stanovením úlohy pro proceduru SD4ft-Miner lze s využitím příkladu popsat takto:

  • Vycházíme z matice dat, jejíž řádky odpovídají objektům našeho zájmu. V našem příkladu nás zajímají pobyty klientů v hotelu.
  • Sloupce matice dat odpovídají atributům charakterizujícím objekty našeho zájmu. Jsou rozděleny do skupin G1,…, GK.
  • Zajímá nás analytická otázka Jsou významné rozdíly mezi kategoriemi daného atributu A ohledně vztahů mezi booleovskou charakteristikou φ skupin atributů G´1,…, G´u a booleovskou charakteristikou ψ skupin atributů G´´1,…, G´´v? Symbolicky můžeme otázku zapsat jako A(?) x A(?) [φ ≈ ψ].
  • Vzhledem k tomu, že významný rozdíl lze chápat různým způsobem, upřesníme otázku takto: Existují takové booleovské charakteristiky φ, ψ, že se pro některou dvojici kategorií atributu A je rozdíl procentuálních podílů objektů splňujících ψ mezi objekty splňujícími φ větší než daná mez?
  • Otázku formalizujeme pomocí podmíněných asociačních pravidel φ → ψ / A(a1) a φ → ψ / A(a2), jejich čtyřpolních tabulek

  • Uvedené podmínky znamenají, že nás zajímají dvojice podmíněných asociačních pravidel takové, že a1, a2 jsou dvě různé kategorie atributu A a platí:
  1. konfidence asociačního pravidla φ → ψ / A(a1) je nejméně o T vyšší, než konfidence asociačního pravidla φ → ψ / A(a2),
  2. nejméně Base1 objektů splňujících A(a1) splňuje antecedent φ  i sukcedent ψ,
  3. nejméně Base2 objektů splňujících A(a2) splňuje antecedent φ  i sukcedent ψ.
  • Takovou dvojici podmíněných asociačních pravidel chápeme jako SD4ft-pravidlo
  • A(a1A(a2):φ →[Df-Conf,T,Base1,Base2] ψ, kde →[Df-Conf,T,Base1,Base2] je SD4ft-kvantifikátor odpovídající výše uvedené podmínce.
  • Úlohu hledání relevantních SD4ft-pravidel specifikujeme pomocí parametrů procedury SD4ft-Miner.

Zadání procedury

Zadání procedury SD4ft-Miner se zahajuje v okně. V poli ANTECEDENT je uvedeno zadání relevantních booleovských atributů φ, zadává se jako množina relevantních cedentů.

V poli QUANTIFIERS je zadán SD4ft-kvantifikátor →[Df-Conf,T,Base1,Base2], viz zadání parametru T a zadání parametrů Base1 a Base2,

V poli SUCCEDENT je uvedeno zadání relevantních booleovských atributů ψ, zadává se jako množina relevantních cedentů, stejně jako pro sloupec ANTECEDENT.

V poli FIRST SET je zadání relevantních booleovských atributů A(?), použije se zadání koeficientu Subsets délky 1-1

V poli SECOND SET je zadání relevantních booleovských atributů A(?), použije se zadání koeficientu Subsets délky 1-1.

Zadání parametru T

Použijeme Statistické SD4ft-kvantifikátory, viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme:

  • míru zajímavosti p-Implication v rozbalovací nabídce Interest measure type
  • operační mód Difference of interest-measures v rozbalovací nabídce Operation mode
  • celý Category Range (použít tlačítko Reset to All) v Category range
  • operátor porovnání Greater than or equal v rozbalovací nabídce Relation
  • prahovou hodnotu T Threshold value
  • oblast Primary IM settings nebudeme měnit.

Zadání parametrů Base1 a Base2

Použijeme Jednoduché frekvenční SD4ft-kvantifikátory, viz první krok v levé části obrázku. Druhý krok se provádí zvlášť pro Base1 a zvlášť pro Base2. Ve druhém kroku, viz pravou část obrázku, zadáme:

  • míru zajímavosti Sum of frequencies v rozbalovací nabídce Interest measure type
  • operační mód First set of frequencies pro Base1 a Second set of frequencies pro Base2 v rozbalovací nabídce Operation mode
  • operátor porovnání Greater than or equal v rozbalovací nabídce Relation
  • prahovou hodnotu Base1 nebo Base2 v poli Threshold value
  • jednotky pro prahovou hodnotu Absolute number v rozbalovací nabídce Threshold-value units
  • oblast Primary IM settings nebudeme měnit.
lm_guha_di_sd4ft_conf_rozdil_obecne.txt · Poslední úprava: 2020/02/13 19:09 (upraveno mimo DokuWiki)