====== Vysoký rozdíl konfidencí - obecně ====== ===== Rekapitulace příkladu ===== V [[lm_guha_di_sd4ft_conf_rozdil_priklad|příkladu]] jsme řešili analytickou otázku //Jsou významné rozdíly mezi jednotlivými státy ohledně vztahů mezi charakteristikami hosta (pohlaví, věk) a typickými parametry odpovědí v dotazníku pobytu? // Symbolicky můžeme otázku zapsat jako Stát(?) x Stát(?) [Host ≈ Dotazník]. Otázku jsme transformovali do zadání procedury SD4ft-Miner podle těchto zásad: - Analyzovali jsme matici dat HotelPlusExterni, jejíž řádky odpovídají pobytům hostů v hotelu. - Otázku jsme upřesnili takto: //Existují takové skupiny hostů, že pro některou dvojici států je rozdíl procentuálních podílů některé kombinace výsledků v dotazníku větší než daná mez? // - Upřesnění jsme vyjádřili pomocí dvou podmíněných asociačních pravidel lišících se pouze podmínkou. Otázku jsme následně formalizovali pomocí dvou čtyřpolních tabulek. - Analytickou otázku jsme vyjádřili pomocí parametrů procedury SD4ft-Miner. - Podstatným způsobem jsme využili možnosti [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|zadávání relevantních podmínek]]. ===== Zobecnění příkladu ===== Obecný postup počínaje formulací analytické otázky a konče stanovením úlohy pro proceduru SD4ft-Miner lze s využitím příkladu popsat takto: * Vycházíme z matice dat, jejíž řádky odpovídají objektům našeho zájmu. V našem příkladu nás zajímají pobyty klientů v hotelu. * Sloupce matice dat odpovídají atributům charakterizujícím objekty našeho zájmu. Jsou rozděleny do skupin **G1**,..., **GK**. * Zajímá nás analytická otázka //Jsou významné rozdíly mezi kategoriemi daného atributu **A** ohledně vztahů mezi booleovskou charakteristikou φ skupin atributů **G´1**,..., **G´u** a booleovskou charakteristikou ψ skupin atributů **G´´1**,..., **G´´v**? // Symbolicky můžeme otázku zapsat jako **A**(?) x **A**(?) [φ ≈ ψ]. * Vzhledem k tomu, že významný rozdíl lze chápat různým způsobem, upřesníme otázku takto: //Existují takové booleovské charakteristiky φ, ψ, že se pro některou dvojici kategorií atributu **A** je rozdíl procentuálních podílů objektů splňujících ψ mezi objekty splňujícími φ větší než daná mez? // * Otázku formalizujeme pomocí [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_pravidlo#podminene_asociacni_pravidlo|podmíněných asociačních pravidel]] φ → ψ / **A**(**a1**) a φ → ψ / **A**(**a2**), jejich čtyřpolních tabulek {{ ::sd4ft_rozdil_konfidenci_formalizace_obecne.png |}} * Uvedené podmínky znamenají, že nás zajímají dvojice podmíněných asociačních pravidel takové, že a1, a2 jsou dvě různé kategorie atributu A a platí: - konfidence asociačního pravidla φ → ψ / **A**(**a1**) je nejméně o //T// vyšší, než konfidence asociačního pravidla φ → ψ / **A**(**a2**), - nejméně //Base1// objektů splňujících **A**(**a1**) splňuje antecedent φ  i sukcedent ψ, - nejméně //Base2// objektů splňujících **A**(**a2**) splňuje antecedent φ  i sukcedent ψ. * Takovou dvojici podmíněných asociačních pravidel chápeme jako [[lm_guha_di_sd4ft_proc|SD4ft-pravidlo]] * **A**(**a1**)×**A**(**a2**):φ →[Df-Conf,//T//,//Base1//,//Base2//] ψ, kde →[Df-Conf,//T//,//Base1//,//Base2//] je SD4ft-kvantifikátor odpovídající výše uvedené podmínce. * Úlohu hledání relevantních SD4ft-pravidel specifikujeme pomocí parametrů procedury SD4ft-Miner. ===== Zadání procedury ===== Zadání procedury [[lm_guha_di_sd4ft_proc|SD4ft-Miner]] se zahajuje v okně. {{ ::sd4ft_formalizace_zadani_prikladu_rozdil_obecne.png |}} V poli ANTECEDENT je uvedeno zadání relevantních booleovských atributů φ, zadává se jako [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|množina relevantních cedentů]]. V poli QUANTIFIERS je zadán SD4ft-kvantifikátor →[Df-Conf,T,Base1,Base2], viz [[lm_guha_di_sd4ft_conf_rozdil_obecne#Zadání parametru T|zadání parametru T]] a [[lm_guha_di_sd4ft_conf_rozdil_obecne#Zadání parametrů Base1 a Base2|zadání parametrů Base1 a Base2]], V poli SUCCEDENT je uvedeno zadání relevantních booleovských atributů ψ, zadává se jako [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcedenthierarchy|množina relevantních cedentů]], stejně jako pro sloupec ANTECEDENT. V poli FIRST SET je zadání relevantních booleovských atributů **A**(?), použije se zadání koeficientu [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcoefficient#podmnoziny|Subsets délky 1-1]] V poli SECOND SET je zadání relevantních booleovských atributů **A**(?), použije se zadání koeficientu [[https://lispminer.vse.cz/wiki/doku.php?id=lmtask:settings:ftcoefficient#podmnoziny|Subsets délky 1-1]]. ===== Zadání parametru T ===== Použijeme [[lm_guha_di_sd4ft_proc|Statistické SD4ft-kvantifikátory]], viz první krok v levé části obrázku. Ve druhém kroku, viz pravou část obrázku, zadáme: {{ ::zadani_parametru_t_rozdil_konfidenci.png |}} * míru zajímavosti //p-Implication// v rozbalovací nabídce //Interest measure type // * operační mód //Difference of interest-measures// v rozbalovací nabídce //Operation mode// * celý Category Range (použít tlačítko //Reset to All//) v //Category range // * operátor porovnání //Greater than or equal// v rozbalovací nabídce //Relation // * prahovou hodnotu //T// //Threshold value// * oblast //Primary IM settings// nebudeme měnit. ===== Zadání parametrů Base1 a Base2 ===== Použijeme [[lm_guha_di_sd4ft_proc|Jednoduché frekvenční SD4ft-kvantifikátory]], viz první krok v levé části obrázku. Druhý krok se provádí zvlášť pro //Base1// a zvlášť pro //Base2//. Ve druhém kroku, viz pravou část obrázku, zadáme: {{ ::zadani_parametru_base.png |}} * míru zajímavosti //Sum of frequencies// v rozbalovací nabídce //Interest measure type // * operační mód //First set of frequencies// pro //Base1// a //Second set of frequencies// pro //Base2// v rozbalovací nabídce //Operation mode// * operátor porovnání //Greater than or equal// v rozbalovací nabídce //Relation // * prahovou hodnotu //Base1// nebo //Base2// v poli //Threshold value// * jednotky pro prahovou hodnotu //Absolute number// v rozbalovací nabídce //Threshold-value units// * oblast //Primary IM settings// nebudeme měnit.