====== Negativní ordinální asociace - příklad ====== ===== Motivace ===== Součástí dat [[https://lispminer.vse.cz/wiki/doku.php?id=lmdata:hotel2015|Hotel]] jsou atributy [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]], [[lm_guha_di_hotel_dotaznik#Atribut DPersonal_ef3|DPersonal_ef3]], [[lm_guha_di_hotel_dotaznik#Atribut DStrava_ef3|DStrava_ef3]], [[lm_guha_di_hotel_dotaznik#Atribut DUbytovani_ef3|DUbytování_ef3]] a [[lm_guha_di_hotel_dotaznik#Atribut DZabava_ef3|DZabava_ef3]]. Atribut DHodnoceni má kategorie //nespokojen//, //průměr//, //spokojen//, všechny zbývající atributy mají kategorie //nižší//, //průměr//, //vyšší//. Je tedy přirozenou otázkou pro které z atributů *_ef3 a za jakých okolností platí, že pokud má atribut DHodnocení hodnotu //nespokojen//, pak atribut *_ef3 má hodnotu //vyšší// a analogicky pro dvojice //průměr//-//průměr// a //spokojen//-//nižší//. Jinými slovy, zajímá nás analytická otázka: //Za jakých okolností existuje silná negativní ordinální asociace mezi atributem DHodnocení a některým z atributů DPersonal_ef3, DStrava_ef3, DUbytování_ef3 a DZabava_ef3?// Relevantní okolnosti budeme definovat pomocí množiny booleovských atributů Host(?) ∧ Host/Bydliště(?) ∧ Pobyt/Začátek(?) ∧ Meteo(?), kde * Host(?) je booleovský atribut vhodně charakterizující hosty. Je vytvořen z atributů [[lm_guha_di_hotel_host#Atribut HPohlavi|HPohlavi]] a [[lm_guha_di_hotel_host#Atribut HVek_exp|HVek_exp]] ze skupiny Host. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host. * Host/Bydliště(?) je booleovský atribut vhodně charakterizující bydliště hosta. Je vytvořen z atributů [[lm_guha_di_hotel_host_bydliste#Atribut H_Cizinec_b|H_Cizinec_b]], [[lm_guha_di_hotel_host_bydliste#Atribut HMesto|HMesto]], [[lm_guha_di_hotel_host_bydliste#Atribut HStat|HStat]] ze skupiny Host/Bydliště. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Host/Bydliště. * Pobyt/Začátek(?) je booleovský atribut vhodně charakterizující začátek pobytu hosta. Je vytvořen z atributů [[lm_guha_di_hotel_pobyt_zacatek#Atribut PDenTydne|PDenTydne]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PMesic|PMesic]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PRok|PRok]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PSezona_b|PSezona_b]], [[lm_guha_di_hotel_pobyt_zacatek#Atribut PVikend_b|PVikend_b]] ze skupiny atributů Pobyt/Začátek. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Pobyt/Začátek * Meteo(?) je booleovský atribut vhodně charakterizující počasí. Je vytvořen z atributů [[lm_guha_di_hotel_meteo#Atribut MObloha|Atribut MObloha]] a [[lm_guha_di_hotel_meteo#Atribut MTeplota_exp|Atribut MTeplota_exp]]. V zadání procedury odpovídá [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftpartialcedent|dílčímu cedentu]] Meteo. Budeme požadovat, aby booleovský atribut charakterizující relevantní okolnosti byl splněn minimálně pro 20 řádků analyzované matice dat. Nízký minimální počet počet řádků je zvolen proto, že mezi atributy, které nás zajímají neočekáváme silné negativní ordinální asociace. Pro vyjádření silné negativní ordinální asociace použijeme [[lm_guha_di_tabulka|Kendallův kvantifikátor]] s hodnotou TauB=-0.7. ===== Zadání procedury ===== Zadání procedury [[https://lispminer.vse.cz/wiki/doku.php?id=mkl:start|KL-Miner]] pro řešení výše naznačené úlohy je v následujícím obrázku. {{ ::negativni_ordinalni_asociace_zadani_prikladu.png?|}} V okně ROW ATTRIBUTES je uvedeno, že řádky kontingenční tabulky budou odpovídat kategoriím atributu DHodnoceni. V okně QUANTIFIERS jsou zadány KL-kvantifikátory SUM a KEND. Kvantifikátor SUM specifikuje, že nás zajímají okolnosti dané booleovskými atributy zadanými v okně CONDITION, kterým vyhovuje alespoň 20 řádků analyzované matice dat. Volíme tak nízkou hodnotou, protože neočekáváme silné negativní závislosti pro rozsáhlejší množiny řádků. Kvantifikátor KEND udává, že nás zajímají negativní závislosti mezi atributy s hodnotou TauB maximálně -0.7. V okně COLUMN ATTRIBUTES je uvedeno, že sloupce kontingenční tabulky budou postupně odpovídat kategoriím atributů DHodnoceni, DPersonal, DStrava, DUbytovani a DZabava. ===== Výsledky ===== Výsledkem běhu procedury KL-Miner je šest vztahů silné negativní ordinální asociace: {{ ::negativni_ordinalni_asociace_vysledek_prikladu.png|}} Ze čtyř nejsilnějších vztahů je zvýrazněn vztah, který se týká atributů DHodnoceni a DZabava a pobytů hostů z ČR, přijíždějících v pátek roce 2012, přičemž je zatažená obloha a teplo. Hodnota TauB je -0.772: {{ ::negativni_ordinalni_asociace_detail_vysledku.png |}} Vztah se týká atributů DHodnoceni a DZabava a hostů z ČR ve věku od 28 do 60 let kteří přijeli v pátek v roce 2012, přičemž byla obloha zatažená a bylo teplo. Na záložce TEXT lze zjistit, že vztah se týká 21 pobytů - řádků analyzované matice dat. Silná positivní ordinální asociace se projevuje tím, že převažují řádky matice ve kterých nastává jedna ze situací: * atribut DHodnoceni nabývá hodnotu //průměr// a atribut DZabava nabývá hodnotu //průměr// * atribut DHodnoceni nabývá hodnotu //spokojen// a atribut DZabava nabývá hodnotu //nižší//.