====== Násobně vyšší konfidence - příklad ====== ==== Motivace ==== Data Hotel zahrnují mimo jiné údaje o hostech, jejich bydlišti, a o spokojenosti hostů s pobytem. Lze tedy formulovat analytickou otázku: //Jsou významné rozdíly mezi jednotlivými státy ohledně vztahů mezi charakteristikami hosta (pohlaví, věk) a typickými parametry odpovědí v dotazníku pobytu? // Symbolicky můžeme otázku zapsat jako{{ ::stat_stat_host_dotaznik_schema.png |}} Vzhledem k tomu, že významný rozdíl lze chápat různým způsobem, upřesníme otázku takto: //Existují takové skupiny hostů, že se procentuální podíl nějaké kombinace výsledků v dotazníku násobně liší mezi některými dvojicemi států? // ==== Formalizace otázky ==== Otázku lze formalizovat pomocí dvojice [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_pravidlo#podminene_asociacni_pravidlo|podmíněných asociačních pravidel]] Host(?) → Dotazník(?) / Stát(1) a Host(?) → Dotazník(?) / Stát(2), jejich čtyřpolních tabulek {{ ::sd4ft_formalizace.png |}} Uvedená podmínka znamená, že nás zajímají dvojice podmíněných asociačních pravidel takové, že Stát(1) a Stát(2) jsou dva různé státy a platí - konfidence asociačního pravidla Host(?) → Dotazník(?) pro Stát(1) je nejméně dvakrát vyšší než pro stát Stát(2) - nejméně 30 pobytů hostů ze státu 1 splňuje antecedent Host(?) i sukcedent Dotazník(?), - nejméně 30 pobytů hostů ze státu 2 splňuje antecedent Host(?) i sukcedent Dotazník(?). Takovou dvojici podmíněných asociačních pravidel chápeme jako [[lm_guha_di_sd4ft_proc|SD4ft-pravidlo]] Stát(1)×Stát(2): Host(?) →[R-Conf,2.0,30,30] Dotazník(?), kde →[R-Conf,2.0,30,30] je SD4ft-kvantifikátor odpovídající výše uvedené podmínce. Dále budeme předpokládat, že * Stát(1) a Stát(2) jsou booleovské atributy vytvořené z atributu [[lm_guha_di_hotel_host_bydliste#Atribut HStat|Hstat]] * Host(?) je booleovský atribut vhodně charakterizující hosty. Je vytvořen z atributů [[lm_guha_di_hotel_host#Atribut HPohlavi|HPohlavi]] a [[lm_guha_di_hotel_host#Atribut HVek_exp|HVek_exp]] ze skupiny Host. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host. * Dotazník(?) je booleovský atribut vhodně charakterizující odpovědi uvedené v dotazníku. Je vytvořen z atributů [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]], [[lm_guha_di_hotel_dotaznik#Atribut DPersonal_ef3|DPersonal_ef3]], [[lm_guha_di_hotel_dotaznik#Atribut DStrava_ef3|DStrava_ef3]], [[lm_guha_di_hotel_dotaznik#Atribut DUbytovani_ef3|DUbytovani_ef3]], [[lm_guha_di_hotel_dotaznik#Atribut DZabava_ef3|DZabava_ef3]]. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Dotaznik. ==== Zadání procedury ==== Zadání procedury [[lm_guha_di_sd4ft_proc|SD4ft-Miner]] pro řešení výše naznačené úlohy je v následujícím obrázku. {{ ::sd4ft_formalizace_zadani_prikladu_nasobek.png |}} V poli ANTECEDENT je uvedeno zadání relevantních booleovských atributů Host(?), zadává se jako [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|množina relevantních cedentů]]. V poli QUANTIFIERS je zadán SD4ft-kvantifikátor →[R-Conf,2.0,30,30] V poli SUCCEDENT je uvedeno zadání relevantních booleovských atributů Dotazník(?), zadává se jako [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|množina relevantních cedentů]], stejně jako pro sloupec ANTECEDENT. V poli FIRST SET je zadání relevantních booleovských atributů Stát(1), je použit atribut [[lm_guha_di_hotel_host_bydliste#Atribut HStat|HStat]] V poli SECOND SET je zadání relevantních booleovských atributů Stát(2), je použit atribut [[lm_guha_di_hotel_host_bydliste#Atribut HStat|HStat]]. ==== Výsledky ==== Výsledkem běhu procedury SD4ft-Miner je 33 SD4ft-pravidel vyhovujících zadaným podmínkám: {{ ::sd4ft_formalizace_vysledek_prikladu_nasobek.png |}} Nejsilnější a zároveň nejkratší je čtvrté SD4ft pravidlo: {{ ::sd4ft_formalizace_vysledek_prikladu_nasobek_detail_text.png |}} Detailní výstup pro toto SD4f-pravidlo je: {{ ::sd4ft_formalizace_vysledek_prikladu_nasobek_detail.png |}} Označme DOTAZNIK = DUbytovani(nižší) ∧ DZabava(nižší) ∧ DStrava(nižší) a HVek(28+) = HVek(28 do 60,60 a vice). Potom je z výstupu zřejmé: * konfidence podmíněného asociačního pravidla HVek(28+) → DOTAZNIK / HStat(Slovensko) je 34/(34+87) = 0.28 * konfidence podmíněného asociačního pravidla HVek(28+) → DOTAZNIK / HStat(Rakousko) je 52/(52+390) = 0.12 * konfidence pravidla HVek(28+) → DOTAZNIK / HStat(Slovensko) je tedy 2.39 krát větší než pro pravidlo HVek(28+) → DOTAZNIK / HStat(Rakousko).