====== Nárůst relativní četnosti - příklad ====== ==== Analytická otázka ==== Data Hotel zahrnují mimo jiné údaje o hostech, jejich pobytech v hotelu, i o spokojenosti hostů s pobytem. Lze tedy formulovat i analytickou otázku: //Jaké charakteristiky hostů, jejich bydliště a začátků jejich pobytů vedou k výraznému nárůstu relativní četnosti některé kombinace spokojenosti hostů a ceny pobytu oproti relativní četnosti této kombinace v celých datech?// Poznamenejme, že se jedná o jinou analytickou otázku než je otázka //Jaké charakteristiky hostů, jejich bydliště a začátků jejich pobytů vedou s vysokou pravděpodobností ke spokojenosti nebo naopak k nespokojenosti hostů a jaká je cena těchto pobytů?// řešená v [[lm_guha_di_ar_konf_priklad|příkladu týkajícím se vysoké konfidence]]. Rozdíl ve formulaci vede k použití 4ft-kvantifikátoru [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_kvantifikatory_vybrane#kvantifikator_fundovaneho_nadprumerneho_souviseni|fundovaného nadprůměrného souvisení]] místo 4ft-kvantifikátoru [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_kvantifikatory_vybrane#kvantifikator_fundovane_implikace|fundované implikace]]. Uvidíme, že použití 4ft-kvantifikátoru fundovaného nadprůměrného souvisení povede k výsledkům, které lze jen obtížně získat pomocí 4ft-kvantifikátoru fundované implikace. ==== Analytická otázka - převod na asociační pravidla ==== Tuto otázku lze formulovat i tak, že nás zajímají [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_pravidlo|asociační pravidla]] {{ ::host_bydliste_zacatek_spokojenost_aa.png?800 |}} kde * Host(?) je booleovský atribut vhodně charakterizující hosty. Je vytvořen z atributů [[lm_guha_di_hotel_host#Atribut HPohlavi|HPohlavi]] a [[lm_guha_di_hotel_host#Atribut HVek_exp|HVek_exp]] ze skupiny Host. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host. * Host/Bydliště(?) je booleovský atribut vhodně charakterizující bydliště hosta. Je vytvořen z atributů [[lm_guha_di_hotel_host_bydliste#Atribut H_Cizinec_b|H_Cizinec_b]], [[lm_guha_di_hotel_host_bydliste#Atribut HMesto|HMesto]], [[lm_guha_di_hotel_host_bydliste#Atribut HStat|HStat]] ze skupiny Host/Bydliště. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host/Bydliště. * Pobyt/Začátek(?) je booleovský atribut vhodně charakterizující začátek pobytu hosta. Je vytvořen z atributů [[lm_guha_di_hotel_pobyt_zacatek#Atribut PDenTydne|PDenTydne]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PMesic|PMesic]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PRok|PRok]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PSezona_b|PSezona_b]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PVikend_b|PVikend_b]] ze skupiny atributů Pobyt/Začátek. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Pobyt/Začátek. * {{::4ft_kvantifikator_aa_pro_narust_relativni_cetnosti.png?50 |}} je 4ft-kvantifikátor [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_kvantifikatory_vybrane#kvantifikator_fundovaneho_nadprumerneho_souviseni|fundovaného nadprůměrného souvisení]] říkající, že nás zajímají taková pravidla, pro která je relativní četnost sukcedentu alespoň o 100% vyšší než relativní četnost sukcedentu v celé matici a zároveň taková, že nejméně 150 pobytů splňuje jak antecedent tak sukcedent. Zvolili jsme minimální četnost řádků splňujících antecedent i sukcedent 150, tedy výrazně víc než 50. Důvodem je, aby počet vystupujících pravidel byl přibližně stejný jako v [[lm_guha_di_ar_konf_priklad|příkladu týkajícím se vysoké konfidence]]. * DHodnoceni(?) je booleovský atribut DHodnoceni(nespokojen,průměr) nebo DHodnoceni(průměr, spokojen) vytvořený z atributu [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]] jako literál s koeficientem [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcoefficient&do=|Řezy]] délky 1 až 2 * PCenaCelkem_ef5(?) je booleovský atribut vytvořený jako literál s koeficientem [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcoefficient&do=#Posloupnosti|Posloupnosti]] délky 1 až 2 z atributu [[lm_guha_di_hotel_pobyt_cena#Atribut PCenaCelkem_ef5|PCenaCelkem_ef5]]. ==== Zadání procedury ==== Zadání procedury [[https://lispminer.vse.cz/wiki/doku.php?id=mft:start|4ft-Miner]] pro řešení výše naznačené úlohy je v následujícím obrázku. {{ ::ar_narust_relativni_cetnosti_zadani_prikladu.png?800 |}} Ve sloupci ANTECEDENT je uvedeno zadání relevantních booleovských atributů Host(?) ∧ Host/Bydliště(?) ∧ Pobyt/Začátek(?), zadává se jako [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|množina relevantních cedentů]]. Ve sloupci [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifier|QUANTIFIERS]] je zadáno, že nás zajímají taková pravidla, pro která je relativní četnost sukcedentu alespoň o 100% vyšší, než relativní četnost sukcedentu v celé matici a zároveň taková, že nejméně 150 pobytů splňuje jak antecedent tak sukcedent Ve sloupci SUCCEDENT je uvedeno zadání pravé strany pravidla. Používá se, stejně jako pro sloupec SUCCEDENT [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|zadání množiny relevantních cedentů]]. ==== Výsledky ==== Výsledkem běhu procedury 4ft-Miner je 10 pravidel vyhovujících zadaným podmínkám: {{ ::ar_narust_relativni_cetnosti_vysledek_prikladu.png?800 |}} Čtvrté nejsilnější a zároveň nejkratší je pravidlo: {{ ::pravidlo_dentydne_mesic_dhodnoceni.png?600 |}} Pravidlo říká: * Mezi pobyty, které začínají v sobotu v listopadu je relativní četnost nespokojených nebo průměrně spokojených hostů kteří zároveň platí nejvyšší cenu celkem o 106% vyšší, než je relativní četnost takových hostů v celých datech. * V celých datech je 150 pobytů začínajících v sobotu, při kterých byl host nespokojen ne průměrně spokojen a zároveň platil nejvyšší cenu. Detailní výstup pravidla je na následujícím obrázku. {{ ::ar_narust_relativni_cetnosti_vysledek_detail.png?800 |}} Komentář k nárůstu relativní četnosti je v následujícím obrázku. {{ ::aa_pro_prehled.png?800 |}} Konfidence tohoto pravidla je 0.31. Další podrobnosti lze zjistit na záložce TEXT. ==== Porovnání s úlohou na hledání pravidel s vysokou konfidencí ==== Poznamenejme, že nejnižší konfidence mezi deseti výslednými pravidly má hodnotu 0.31. Pokud bychom chtěli získat, tato výsledná pravidla pomocí kvantifikátoru fundované implikace jako v [[lm_guha_di_ar_konf_priklad#Zadání procedury|předchozí úloze]], museli bychom zadat minimální konfidenci jako 0.31. To ale vede k 468 výsledným pravidlům a je třeba použít další třídění pravidel.