Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod


Data Hotel

Další data


Typové úlohy




Všechny řešené příklady


Řešené příklady s detaily na wiki

Histogramy na wiki

Asociační pravidla na wiki

Kontingenční tabulky na wiki

Dvojice asociačních pravidel


lm_guha_di_sd4ft_conf_nasobek_priklad

Násobně vyšší konfidence - příklad

Motivace

Data Hotel zahrnují mimo jiné údaje o hostech, jejich bydlišti, a o spokojenosti hostů s pobytem. Lze tedy formulovat analytickou otázku: Jsou významné rozdíly mezi jednotlivými státy ohledně vztahů mezi charakteristikami hosta (pohlaví, věk) a typickými parametry odpovědí v dotazníku pobytu? Symbolicky můžeme otázku zapsat jako

Vzhledem k tomu, že významný rozdíl lze chápat různým způsobem, upřesníme otázku takto: Existují takové skupiny hostů, že se procentuální podíl nějaké kombinace výsledků v dotazníku násobně liší mezi některými dvojicemi států?

Formalizace otázky

Otázku lze formalizovat pomocí dvojice podmíněných asociačních pravidel Host(?) → Dotazník(?) / Stát(1) a Host(?) → Dotazník(?) / Stát(2), jejich čtyřpolních tabulek Uvedená podmínka znamená, že nás zajímají dvojice podmíněných asociačních pravidel takové, že Stát(1) a Stát(2) jsou dva různé státy a platí

  1. konfidence asociačního pravidla Host(?) → Dotazník(?) pro Stát(1) je nejméně dvakrát vyšší než pro stát Stát(2)
  2. nejméně 30 pobytů hostů ze státu 1 splňuje antecedent Host(?) i sukcedent Dotazník(?),
  3. nejméně 30 pobytů hostů ze státu 2 splňuje antecedent Host(?) i sukcedent Dotazník(?).

Takovou dvojici podmíněných asociačních pravidel chápeme jako SD4ft-pravidlo

Stát(1)×Stát(2): Host(?) →[R-Conf,2.0,30,30] Dotazník(?),

kde →[R-Conf,2.0,30,30] je SD4ft-kvantifikátor odpovídající výše uvedené podmínce. Dále budeme předpokládat, že

Zadání procedury

Zadání procedury SD4ft-Miner pro řešení výše naznačené úlohy je v následujícím obrázku. V poli ANTECEDENT je uvedeno zadání relevantních booleovských atributů Host(?), zadává se jako množina relevantních cedentů.

V poli QUANTIFIERS je zadán SD4ft-kvantifikátor →[R-Conf,2.0,30,30]

V poli SUCCEDENT je uvedeno zadání relevantních booleovských atributů Dotazník(?), zadává se jako množina relevantních cedentů, stejně jako pro sloupec ANTECEDENT.

V poli FIRST SET je zadání relevantních booleovských atributů Stát(1), je použit atribut HStat

V poli SECOND SET je zadání relevantních booleovských atributů Stát(2), je použit atribut HStat.

Výsledky

Výsledkem běhu procedury SD4ft-Miner je 33 SD4ft-pravidel vyhovujících zadaným podmínkám:

Nejsilnější a zároveň nejkratší je čtvrté SD4ft pravidlo:

Detailní výstup pro toto SD4f-pravidlo je:

Označme DOTAZNIK = DUbytovani(nižší) ∧ DZabava(nižší) ∧ DStrava(nižší) a HVek(28+) = HVek(28 do 60,60 a vice). Potom je z výstupu zřejmé:

  • konfidence podmíněného asociačního pravidla HVek(28+) → DOTAZNIK / HStat(Slovensko) je 34/(34+87) = 0.28
  • konfidence podmíněného asociačního pravidla HVek(28+) → DOTAZNIK / HStat(Rakousko) je 52/(52+390) = 0.12
  • konfidence pravidla HVek(28+) → DOTAZNIK / HStat(Slovensko) je tedy 2.39 krát větší než pro pravidlo HVek(28+) → DOTAZNIK / HStat(Rakousko).
lm_guha_di_sd4ft_conf_nasobek_priklad.txt · Poslední úprava: 2019/09/22 16:38 (upraveno mimo DokuWiki)