====== Vysoký rozdíl konfidencí - příklad ====== ==== Motivace ==== Data Hotel zahrnují mimo jiné údaje o hostech, jejich bydlišti, a o spokojenosti hostů s pobytem. Lze tedy formulovat analytickou otázku: //Jsou významné rozdíly mezi jednotlivými státy ohledně vztahů mezi charakteristikami hosta (pohlaví, věk) a typickými parametry odpovědí v dotazníku pobytu? // Symbolicky můžeme otázku zapsat jako{{ ::stat_stat_host_dotaznik_schema.png |}} Vzhledem k tomu, že významný rozdíl lze chápat různým způsobem, upřesníme otázku takto: //Existují takové skupiny hostů, že pro nějakou dvojici států je rozdíl procentuálních podílů nějaké kombinace výsledků v dotazníku větší než daná mez? // ==== Formalizace otázky ==== Otázku lze formalizovat pomocí dvojice [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_pravidlo#podminene_asociacni_pravidlo|podmíněných asociačních pravidel]] Host(?) → Dotazník(?) / Stát(1) a Host(?) → Dotazník(?) / Stát(2), jejich čtyřpolních tabulek {{ ::sd4ft_rozdil_konfidenci_formalizace.png |}} Uvedená podmínka znamená, že nás zajímají dvojice podmíněných asociačních pravidel takové, že Stát(1) a Stát(2) jsou dva různé státy a platí - konfidence asociačního pravidla Host(?) → Dotazník(?) pro Stát(1) je nejméně o 0.20 vyšší než pro stát Stát(2) - nejméně 25 pobytů hostů ze státu 1 splňuje antecedent Host(?) i sukcedent Dotazník(?), - nejméně 25 pobytů hostů ze státu 2 splňuje antecedent Host(?) i sukcedent Dotazník(?). Takovou dvojici podmíněných asociačních pravidel chápeme jako [[lm_guha_di_sd4ft_proc|SD4ft-pravidlo]] Stát(1)×Stát(2): Host(?) →[Df-Conf,0.20,25,25] Dotazník(?), kde →[Df-Conf,0.20,25,25] je SD4ft-kvantifikátor odpovídající výše uvedené podmínce. Dále budeme předpokládat, že * Stát(1) a Stát(2) jsou booleovské atributy vytvořené z atributu [[lm_guha_di_hotel_host_bydliste#Atribut HStat|Hstat]] * Host(?) je booleovský atribut vhodně charakterizující hosty. Je vytvořen z atributů [[lm_guha_di_hotel_host#Atribut HPohlavi|HPohlavi]] a [[lm_guha_di_hotel_host#Atribut HVek_exp|HVek_exp]] ze skupiny Host. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host. * Dotazník(?) je booleovský atribut vhodně charakterizující odpovědi uvedené v dotazníku. Je vytvořen z atributů [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]], [[lm_guha_di_hotel_dotaznik#Atribut DPersonal_ef3|DPersonal_ef3]], [[lm_guha_di_hotel_dotaznik#Atribut DStrava_ef3|DStrava_ef3]], [[lm_guha_di_hotel_dotaznik#Atribut DUbytovani_ef3|DUbytovani_ef3]], [[lm_guha_di_hotel_dotaznik#Atribut DZabava_ef3|DZabava_ef3]]. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Dotaznik. ==== Zadání procedury ==== Zadání procedury [[lm_guha_di_sd4ft_proc|SD4ft-Miner]] pro řešení výše naznačené úlohy je v následujícím obrázku. {{ ::sd4ft_formalizace_zadani_prikladu_rozdil.png |}} V poli ANTECEDENT je uvedeno zadání relevantních booleovských atributů Host(?), zadává se jako [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|množina relevantních cedentů]]. V poli QUANTIFIERS je zadán SD4ft-kvantifikátor →[Df-Conf,0.25,25,25] V poli SUCCEDENT je uvedeno zadání relevantních booleovských atributů Dotazník(?), zadává se jako [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|množina relevantních cedentů]], stejně jako pro sloupec ANTECEDENT. V poli FIRST SET je zadání relevantních booleovských atributů Stát(1), je použit atribut [[lm_guha_di_hotel_host_bydliste#Atribut HStat|HStat]] V poli SECOND SET je zadání relevantních booleovských atributů Stát(2), je použit atribut [[lm_guha_di_hotel_host_bydliste#Atribut HStat|HStat]]. ==== Výsledky ==== Výsledkem běhu procedury SD4ft-Miner je 33 SD4ft-pravidel vyhovujících zadaným podmínkám: {{ ::sd4ft_formalizace_vysledek_prikladu_rozdil.png |}} Nejsilnější je první SD4ft pravidlo: {{ ::sd4ft_formalizace_vysledek_prikladu_rozdil_detail_text.png |}} Detailní výstup pro toto SD4f-pravidlo je: {{ ::sd4ft_formalizace_vysledek_prikladu_rozdil_detail.png |}} Označme Žena(do 28) = HPohlavi(žena) ∧ HVek(pod 21, od 21 do 28. Potom je z výstupu zřejmé: * konfidence podmíněného asociačního pravidla Žena(do 28) → DHodnoceni(průměr) / HStat(Německo) je 25/(25+13) = 0.66 * konfidence podmíněného asociačního pravidla Žena(do 28) → DHodnoceni(průměr) / HStat(ČR) je 31/(31+48) = 0.39 * konfidence pravidla Žena(do 28) → DHodnoceni(průměr) / HStat(Německo) je tedy o 0.27 větší než pro pravidlo Žena(do 28) → DHodnoceni(průměr) / HStat(ČR).