Obsah

Positivní ordinální asociace - příklad

Motivace

Součástí dat Hotel jsou atributy DHodnoceni, DPersonal_ef3, DStrava_ef3, DUbytování_ef3 a DZabava_ef3. Atribut DHodnoceni má kategorie nespokojen, průměr, spokojen, všechny zbývající atributy mají kategorie nižší, průměr, vyšší. Je tedy přirozenou otázkou pro které z atributů *_ef3 a za jakých okolností platí, že pokud má atribut DHodnocení hodnotu nespokojen, pak atribut *_ef3 má hodnotu nižší a analogicky pro dvojice průměr-průměr a spokojen-vyšší.

Jinými slovy, zajímá nás analytická otázka: Za jakých okolností existuje silná pozitivní ordinální asociace mezi atributem DHodnocení a některým z atributů DPersonal_ef3, DStrava_ef3, DUbytování_ef3 a DZabava_ef3?

Relevantní okolnosti budeme definovat pomocí množiny booleovských atributů kde

Budeme požadovat, aby booleovský atribut charakterizující relevantní okolnosti byl splněn minimálně pro 300 řádků analyzované matice dat. Pro vyjádření silné pozitivní ordinální asociace použijeme Kendallův kvantifikátor s hodnotou TauB=0.9.

Zadání procedury

Zadání procedury KL-Miner pro řešení výše naznačené úlohy je v následujícím obrázku. V okně ROW ATTRIBUTES je uvedeno, že řádky kontingenční tabulky budou odpovídat kategoriím atributu DHodnoceni. V okně QUANTIFIERS je uvedeno, že nás zajímají takové okolnosti dané booleovskými atributy zadanými v okně CONDITION, kterým vyhovuje alespoň 300 řádků analyzované matice dat. V okně COLUMN ATTRIBUTES je uvedeno, že sloupce kontingenční tabulky budou postupně odpovídat kategoriím atributů DHodnoceni, DPersonal, DStrava, DUbytovani a DZabava.

V okně ROW ATTRIBUTES je uvedeno, že řádky kontingenční tabulky budou odpovídat kategoriím atributu DHodnoceni. V okně QUANTIFIERS jsou zadány KL-kvantifikátory SUM a KEND. Kvantifikátor SUM specifikuje, že nás zajímají okolnosti dané booleovskými atributy zadanými v okně CONDITION, kterým vyhovuje alespoň 300 řádků analyzované matice dat. Kvantifikátor KEND udává, že nás zajímají negativní závislosti mezi atributy s hodnotou TauB minimálně 0.9. V okně COLUMN ATTRIBUTES je uvedeno, že sloupce kontingenční tabulky budou postupně odpovídat kategoriím atributů DHodnoceni, DPersonal, DStrava, DUbytovani a DZabava.

Výsledky

Výsledkem běhu procedury KL-Miner je sedm vztahů silné pozitivní ordinální asociace: Nejsilnější vztah se týká atributů DHodnoceni a DPersonal a pobytů cizinců ve věku 21 až 60 let přijíždějících v roce 2013. Hodnota TauB je 0.915:

Vztah se týká atributů DHodnoceni a DPersonal a pobytů cizinců ve věku 21 až 60 let přijíždějících v roce 2013. Na záložce TEXT lze zjistit, že vztah se týká 382 pobytů - řádků analyzované matice dat. Silná positivní ordinální asociace se projevuje tím, že převažují řádky matice ve kterých nastává jedna ze situací: