Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod


Data Hotel

Další data


Typové úlohy




Všechny řešené příklady


Řešené příklady s detaily na wiki

Histogramy na wiki

Asociační pravidla na wiki

Kontingenční tabulky na wiki

Dvojice asociačních pravidel


lm_guha_di_ar_aa_priklad

Nárůst relativní četnosti - příklad

Analytická otázka

Data Hotel zahrnují mimo jiné údaje o hostech, jejich pobytech v hotelu, i o spokojenosti hostů s pobytem. Lze tedy formulovat i analytickou otázku: Jaké charakteristiky hostů, jejich bydliště a začátků jejich pobytů vedou k výraznému nárůstu relativní četnosti některé kombinace spokojenosti hostů a ceny pobytu oproti relativní četnosti této kombinace v celých datech?

Poznamenejme, že se jedná o jinou analytickou otázku než je otázka Jaké charakteristiky hostů, jejich bydliště a začátků jejich pobytů vedou s vysokou pravděpodobností ke spokojenosti nebo naopak k nespokojenosti hostů a jaká je cena těchto pobytů? řešená v příkladu týkajícím se vysoké konfidence. Rozdíl ve formulaci vede k použití 4ft-kvantifikátoru fundovaného nadprůměrného souvisení místo 4ft-kvantifikátoru fundované implikace.

Uvidíme, že použití 4ft-kvantifikátoru fundovaného nadprůměrného souvisení povede k výsledkům, které lze jen obtížně získat pomocí 4ft-kvantifikátoru fundované implikace.

Analytická otázka - převod na asociační pravidla

Tuto otázku lze formulovat i tak, že nás zajímají asociační pravidla kde

  • Host(?) je booleovský atribut vhodně charakterizující hosty. Je vytvořen z atributů HPohlavi a HVek_exp ze skupiny Host. V zadání procedury odpovídá dílčímu cedentu Host.
  • Host/Bydliště(?) je booleovský atribut vhodně charakterizující bydliště hosta. Je vytvořen z atributů H_Cizinec_b, HMesto, HStat ze skupiny Host/Bydliště. V zadání procedury odpovídá dílčímu cedentu Host/Bydliště.
  • Pobyt/Začátek(?) je booleovský atribut vhodně charakterizující začátek pobytu hosta. Je vytvořen z atributů PDenTydne, PMesic, PRok, PSezona_b, PVikend_b ze skupiny atributů Pobyt/Začátek. V zadání procedury odpovídá dílčímu cedentu Pobyt/Začátek.
  • je 4ft-kvantifikátor fundovaného nadprůměrného souvisení říkající, že nás zajímají taková pravidla, pro která je relativní četnost sukcedentu alespoň o 100% vyšší než relativní četnost sukcedentu v celé matici a zároveň taková, že nejméně 150 pobytů splňuje jak antecedent tak sukcedent. Zvolili jsme minimální četnost řádků splňujících antecedent i sukcedent 150, tedy výrazně víc než 50. Důvodem je, aby počet vystupujících pravidel byl přibližně stejný jako v příkladu týkajícím se vysoké konfidence.
  • DHodnoceni(?) je booleovský atribut DHodnoceni(nespokojen,průměr) nebo DHodnoceni(průměr, spokojen) vytvořený z atributu DHodnoceni jako literál s koeficientem Řezy délky 1 až 2
  • PCenaCelkem_ef5(?) je booleovský atribut vytvořený jako literál s koeficientem Posloupnosti délky 1 až 2 z atributu PCenaCelkem_ef5.

Zadání procedury

Zadání procedury 4ft-Miner pro řešení výše naznačené úlohy je v následujícím obrázku. Ve sloupci ANTECEDENT je uvedeno zadání relevantních booleovských atributů Host(?) ∧ Host/Bydliště(?) ∧ Pobyt/Začátek(?), zadává se jako množina relevantních cedentů.

Ve sloupci QUANTIFIERS je zadáno, že nás zajímají taková pravidla, pro která je relativní četnost sukcedentu alespoň o 100% vyšší, než relativní četnost sukcedentu v celé matici a zároveň taková, že nejméně 150 pobytů splňuje jak antecedent tak sukcedent

Ve sloupci SUCCEDENT je uvedeno zadání pravé strany pravidla. Používá se, stejně jako pro sloupec SUCCEDENT zadání množiny relevantních cedentů.

Výsledky

Výsledkem běhu procedury 4ft-Miner je 10 pravidel vyhovujících zadaným podmínkám:

Čtvrté nejsilnější a zároveň nejkratší je pravidlo:

Pravidlo říká:

  • Mezi pobyty, které začínají v sobotu v listopadu je relativní četnost nespokojených nebo průměrně spokojených hostů kteří zároveň platí nejvyšší cenu celkem o 106% vyšší, než je relativní četnost takových hostů v celých datech.
  • V celých datech je 150 pobytů začínajících v sobotu, při kterých byl host nespokojen ne průměrně spokojen a zároveň platil nejvyšší cenu.

Detailní výstup pravidla je na následujícím obrázku.

Komentář k nárůstu relativní četnosti je v následujícím obrázku.

Konfidence tohoto pravidla je 0.31. Další podrobnosti lze zjistit na záložce TEXT.

Porovnání s úlohou na hledání pravidel s vysokou konfidencí

Poznamenejme, že nejnižší konfidence mezi deseti výslednými pravidly má hodnotu 0.31. Pokud bychom chtěli získat, tato výsledná pravidla pomocí kvantifikátoru fundované implikace jako v předchozí úloze, museli bychom zadat minimální konfidenci jako 0.31. To ale vede k 468 výsledným pravidlům a je třeba použít další třídění pravidel.

lm_guha_di_ar_aa_priklad.txt · Poslední úprava: 2019/09/23 16:36 (upraveno mimo DokuWiki)