====== Nárůst relativní četnosti - příklad ======
==== Analytická otázka ====
Data Hotel zahrnují mimo jiné údaje o hostech, jejich pobytech v hotelu, i o spokojenosti hostů s pobytem. Lze tedy formulovat i analytickou otázku: //Jaké charakteristiky hostů, jejich bydliště a začátků jejich pobytů vedou k výraznému nárůstu relativní četnosti některé kombinace spokojenosti hostů a ceny pobytu oproti relativní četnosti této kombinace v celých datech?// 

Poznamenejme, že se jedná o jinou analytickou otázku než je otázka //Jaké charakteristiky hostů, jejich bydliště a začátků jejich pobytů vedou s vysokou pravděpodobností ke spokojenosti nebo naopak k nespokojenosti hostů a jaká je cena těchto pobytů?// řešená v [[lm_guha_di_ar_konf_priklad|příkladu týkajícím se vysoké konfidence]]. Rozdíl ve formulaci vede k použití 4ft-kvantifikátoru  [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_kvantifikatory_vybrane#kvantifikator_fundovaneho_nadprumerneho_souviseni|fundovaného nadprůměrného souvisení]] místo 4ft-kvantifikátoru [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_kvantifikatory_vybrane#kvantifikator_fundovane_implikace|fundované implikace]]. 

Uvidíme, že použití 4ft-kvantifikátoru fundovaného nadprůměrného souvisení povede k výsledkům, které lze jen obtížně získat pomocí 4ft-kvantifikátoru fundované implikace.  


==== Analytická otázka - převod na asociační pravidla ====
Tuto otázku lze formulovat i tak, že nás zajímají [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_pravidlo|asociační pravidla]] 
{{ ::host_bydliste_zacatek_spokojenost_aa.png?800 |}}
kde 
  * Host(?) je booleovský atribut vhodně charakterizující hosty. Je vytvořen z atributů [[lm_guha_di_hotel_host#Atribut HPohlavi|HPohlavi]] a [[lm_guha_di_hotel_host#Atribut HVek_exp|HVek_exp]] ze skupiny Host. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host.  
  * Host/Bydliště(?) je booleovský atribut vhodně charakterizující bydliště hosta. Je vytvořen z atributů [[lm_guha_di_hotel_host_bydliste#Atribut H_Cizinec_b|H_Cizinec_b]], [[lm_guha_di_hotel_host_bydliste#Atribut HMesto|HMesto]], [[lm_guha_di_hotel_host_bydliste#Atribut HStat|HStat]] ze skupiny Host/Bydliště. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host/Bydliště.
  * Pobyt/Začátek(?) je booleovský atribut vhodně charakterizující začátek pobytu hosta. Je vytvořen z atributů [[lm_guha_di_hotel_pobyt_zacatek#Atribut PDenTydne|PDenTydne]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PMesic|PMesic]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PRok|PRok]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PSezona_b|PSezona_b]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PVikend_b|PVikend_b]] ze skupiny atributů Pobyt/Začátek. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Pobyt/Začátek. 
  * {{::4ft_kvantifikator_aa_pro_narust_relativni_cetnosti.png?50 |}} je 4ft-kvantifikátor [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_kvantifikatory_vybrane#kvantifikator_fundovaneho_nadprumerneho_souviseni|fundovaného nadprůměrného souvisení]] říkající, že nás zajímají  taková pravidla, pro která je relativní četnost sukcedentu alespoň o 100% vyšší než relativní četnost sukcedentu v celé matici a zároveň taková, že nejméně 150 pobytů splňuje jak antecedent tak sukcedent. Zvolili jsme minimální četnost řádků splňujících antecedent i sukcedent 150, tedy výrazně víc než 50. Důvodem je, aby počet vystupujících pravidel byl přibližně stejný jako v  [[lm_guha_di_ar_konf_priklad|příkladu týkajícím se vysoké konfidence]]. 
  * DHodnoceni(?) je booleovský atribut DHodnoceni(nespokojen,průměr) nebo DHodnoceni(průměr, spokojen) vytvořený z atributu [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]] jako literál s koeficientem [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcoefficient&do=|Řezy]] délky 1 až 2
  * PCenaCelkem_ef5(?) je booleovský atribut vytvořený jako literál s koeficientem [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcoefficient&do=#Posloupnosti|Posloupnosti]] délky 1 až 2 z atributu [[lm_guha_di_hotel_pobyt_cena#Atribut PCenaCelkem_ef5|PCenaCelkem_ef5]]. 


==== Zadání procedury ====

Zadání procedury [[https://lispminer.vse.cz/wiki/doku.php?id=mft:start|4ft-Miner]] pro řešení výše naznačené úlohy je v následujícím obrázku. 
{{ ::ar_narust_relativni_cetnosti_zadani_prikladu.png?800 |}}
Ve sloupci ANTECEDENT je uvedeno zadání relevantních booleovských atributů Host(?) ∧ Host/Bydliště(?)  ∧ Pobyt/Začátek(?), zadává se jako 
[[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|množina relevantních cedentů]]. 

Ve sloupci [[https://lispminer.vse.cz/wiki/doku.php?id=mcf:settings:cfquantifier|QUANTIFIERS]] je zadáno, že 
nás zajímají  taková pravidla, pro která je relativní četnost sukcedentu alespoň o 100% vyšší, než relativní četnost sukcedentu v celé matici a zároveň taková, že nejméně 150 pobytů splňuje jak antecedent tak sukcedent 


Ve sloupci SUCCEDENT je uvedeno zadání pravé strany pravidla. Používá se, stejně jako pro sloupec SUCCEDENT 
[[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|zadání množiny relevantních cedentů]]. 
==== Výsledky ====
Výsledkem běhu procedury 4ft-Miner je 10 pravidel vyhovujících zadaným podmínkám: 
{{ ::ar_narust_relativni_cetnosti_vysledek_prikladu.png?800 |}}

Čtvrté nejsilnější a zároveň nejkratší je pravidlo: 
{{ ::pravidlo_dentydne_mesic_dhodnoceni.png?600 |}}

Pravidlo říká: 
  * Mezi pobyty, které začínají v sobotu v listopadu je relativní četnost nespokojených nebo průměrně spokojených hostů kteří zároveň platí nejvyšší cenu celkem o 106% vyšší, než je relativní četnost takových hostů v celých datech. 
  * V celých datech je 150 pobytů začínajících v sobotu, při kterých byl host nespokojen ne průměrně spokojen a zároveň platil nejvyšší cenu.

Detailní výstup pravidla je na následujícím obrázku. 
{{ ::ar_narust_relativni_cetnosti_vysledek_detail.png?800 |}}

Komentář k nárůstu relativní četnosti je v následujícím obrázku. 
{{ ::aa_pro_prehled.png?800 |}}

Konfidence tohoto pravidla je 0.31.  Další podrobnosti lze zjistit na záložce TEXT. 

==== Porovnání s úlohou na hledání pravidel s vysokou konfidencí ====
Poznamenejme, že nejnižší konfidence mezi deseti výslednými pravidly má hodnotu 0.31. Pokud bychom chtěli získat, tato výsledná pravidla pomocí kvantifikátoru fundované implikace jako v [[lm_guha_di_ar_konf_priklad#Zadání procedury|předchozí úloze]], museli bychom zadat minimální konfidenci jako 0.31. To  ale vede k 468 výsledným pravidlům a je třeba použít další třídění pravidel.