Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod


Data Hotel

Další data


Typové úlohy




Všechny řešené příklady


Řešené příklady s detaily na wiki

Histogramy na wiki

Asociační pravidla na wiki

Kontingenční tabulky na wiki

Dvojice asociačních pravidel


lm_guha_di_sd4ft_conf_rozdil_priklad

Vysoký rozdíl konfidencí - příklad

Motivace

Data Hotel zahrnují mimo jiné údaje o hostech, jejich bydlišti, a o spokojenosti hostů s pobytem. Lze tedy formulovat analytickou otázku: Jsou významné rozdíly mezi jednotlivými státy ohledně vztahů mezi charakteristikami hosta (pohlaví, věk) a typickými parametry odpovědí v dotazníku pobytu? Symbolicky můžeme otázku zapsat jako

Vzhledem k tomu, že významný rozdíl lze chápat různým způsobem, upřesníme otázku takto: Existují takové skupiny hostů, že pro nějakou dvojici států je rozdíl procentuálních podílů nějaké kombinace výsledků v dotazníku větší než daná mez?

Formalizace otázky

Otázku lze formalizovat pomocí dvojice podmíněných asociačních pravidel Host(?) → Dotazník(?) / Stát(1) a Host(?) → Dotazník(?) / Stát(2), jejich čtyřpolních tabulek Uvedená podmínka znamená, že nás zajímají dvojice podmíněných asociačních pravidel takové, že Stát(1) a Stát(2) jsou dva různé státy a platí

  1. konfidence asociačního pravidla Host(?) → Dotazník(?) pro Stát(1) je nejméně o 0.20 vyšší než pro stát Stát(2)
  2. nejméně 25 pobytů hostů ze státu 1 splňuje antecedent Host(?) i sukcedent Dotazník(?),
  3. nejméně 25 pobytů hostů ze státu 2 splňuje antecedent Host(?) i sukcedent Dotazník(?).

Takovou dvojici podmíněných asociačních pravidel chápeme jako SD4ft-pravidlo

Stát(1)×Stát(2): Host(?) →[Df-Conf,0.20,25,25] Dotazník(?),

kde →[Df-Conf,0.20,25,25] je SD4ft-kvantifikátor odpovídající výše uvedené podmínce. Dále budeme předpokládat, že

Zadání procedury

Zadání procedury SD4ft-Miner pro řešení výše naznačené úlohy je v následujícím obrázku. V poli ANTECEDENT je uvedeno zadání relevantních booleovských atributů Host(?), zadává se jako množina relevantních cedentů.

V poli QUANTIFIERS je zadán SD4ft-kvantifikátor →[Df-Conf,0.25,25,25]

V poli SUCCEDENT je uvedeno zadání relevantních booleovských atributů Dotazník(?), zadává se jako množina relevantních cedentů, stejně jako pro sloupec ANTECEDENT.

V poli FIRST SET je zadání relevantních booleovských atributů Stát(1), je použit atribut HStat

V poli SECOND SET je zadání relevantních booleovských atributů Stát(2), je použit atribut HStat.

Výsledky

Výsledkem běhu procedury SD4ft-Miner je 33 SD4ft-pravidel vyhovujících zadaným podmínkám:

Nejsilnější je první SD4ft pravidlo:

Detailní výstup pro toto SD4f-pravidlo je:

Označme Žena(do 28) = HPohlavi(žena) ∧ HVek(pod 21, od 21 do 28. Potom je z výstupu zřejmé:

  • konfidence podmíněného asociačního pravidla Žena(do 28) → DHodnoceni(průměr) / HStat(Německo) je 25/(25+13) = 0.66
  • konfidence podmíněného asociačního pravidla Žena(do 28) → DHodnoceni(průměr) / HStat(ČR) je 31/(31+48) = 0.39
  • konfidence pravidla Žena(do 28) → DHodnoceni(průměr) / HStat(Německo) je tedy o 0.27 větší než pro pravidlo Žena(do 28) → DHodnoceni(průměr) / HStat(ČR).
lm_guha_di_sd4ft_conf_rozdil_priklad.txt · Poslední úprava: 2019/10/13 10:53 (upraveno mimo DokuWiki)