====== Pravidla s vysokou konfidencí - příklad ====== ==== Motivace ==== Data Hotel zahrnují mimo jiné údaje o hostech, jejich bydlišti, pobytech v hotelu, o ceně pobytu i o spokojenosti hostů s pobytem. Lze tedy formulovat analytickou otázku: //Jaké charakteristiky hostů, jejich bydliště a začátků jejich pobytů vedou s vysokou pravděpodobností ke spokojenosti nebo naopak k nespokojenosti hostů a jaká je cena těchto pobytů?// Tuto otázku lze formulovat i tak, že nás zajímají [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_pravidlo|asociační pravidla]] {{ ::pravidlo_pobyt_dhodnoceni_pcenacelkem_ef5.png?800 |}} kde * Host(?) je booleovský atribut vhodně charakterizující hosty. Je vytvořen z atributů [[lm_guha_di_hotel_host#Atribut HPohlavi|HPohlavi]] a [[lm_guha_di_hotel_host#Atribut HVek_exp|HVek_exp]] ze skupiny Host. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host. * Host/Bydliště(?) je booleovský atribut vhodně charakterizující bydliště hosta. Je vytvořen z atributů [[lm_guha_di_hotel_host_bydliste#Atribut H_Cizinec_b|H_Cizinec_b]], [[lm_guha_di_hotel_host_bydliste#Atribut HMesto|HMesto]], [[lm_guha_di_hotel_host_bydliste#Atribut HStat|HStat]] ze skupiny Host/Bydliště. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host/Bydliště. * Pobyt/Začátek(?) je booleovský atribut vhodně charakterizující začátek pobytu hosta. Je vytvořen z atributů [[lm_guha_di_hotel_pobyt_zacatek#Atribut PDenTydne|PDenTydne]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PMesic|PMesic]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PRok|PRok]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PSezona_b|PSezona_b]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PVikend_b|PVikend_b]] ze skupiny atributů Pobyt/Začátek. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Pobyt/Začátek. * {{::4ft_kvantifikator_pro_motivacni_priklad.png?50 |}} je 4ft-kvantifikátor [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_kvantifikatory_vybrane&do=#kvantifikator_fundovane_implikace|fundované implikace]] říkající, že nás zajímají pravidla s konfidencí minimálně 0.8 a taková, že nejméně 50 pobytů splňuje jak Pobyt(?) tak podmínku na pravé straně pravidla * DHodnoceni(?) je booleovský atribut DHodnoceni(nespokojen,průměr) nebo DHodnoceni(průměr, spokojen) vytvořený z atributu [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]] jako literál s koeficientem [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcoefficient&do=|Řezy]] délky 1 až 2 * PCenaCelkem_ef5(?) je booleovský atribut vytvořený jako literál s koeficientem [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcoefficient&do=#Posloupnosti|Posloupnosti]] délky 1 až 2 z atributu [[lm_guha_di_hotel_pobyt_cena#Atribut PCenaCelkem_ef5|PCenaCelkem_ef5]]. ==== Zadání procedury ==== Zadání procedury [[https://lispminer.vse.cz/wiki/doku.php?id=mft:start|4ft-Miner]] pro řešení výše naznačené úlohy je v následujícím obrázku. {{ ::ar_s_vysokou_konfidenci_zadani_prikladu.png?800 |}} Ve sloupci ANTECEDENT je uvedeno zadání relevantních booleovských atributů Host(?) ∧ Host/Bydliště(?) ∧ Pobyt/Začátek(?), zadává se jako [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|množina relevantních cedentů]]. Ve sloupci [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifier|QUANTIFIERS]] je zadáno, že nás zajímají pravidla s konfidencí minimálně 0.8 a zároveň taková, že nejméně 50 pobytů splňuje jak antecedent tak sukcedent. Ve sloupci SUCCEDENT je uvedeno zadání pravé strany pravidla. Používá se [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|zadání množiny relevantních cedentů]], stejně jako pro sloupec ANTECEDENT. ==== Výsledky ==== Výsledkem běhu procedury 4ft-Miner je osm pravidel vyhovujících zadaným podmínkám: {{::ar_s_vysokou_konfidenci_vysledek_prikladu.png?800 |}} Nejsilnější a zároveň nejkratší je druhé pravidlo: {{::ar_s_vysokou_konfidenci_vysledek_prikladu_detail_pravidlo.png?800 |}} Detailní výstup čtyřpolní tabulky je zde: {{ ::ar_s_vysokou_konfidenci_vysledek_prikladu_detail_tabulka.png?800 |}} Konfidence tohoto asociačního pravidla je 0.96