===== Typové úlohy hledání výjimek a odlišností ===== [[lm_guha_di_typy_uloh|Typové úlohy]] lze v některých případech chápat jako hledání zajímavých výjimek a odlišností. Dále jsou tyto možnosti stručně naznačeny. Poznamenejme, že úlohy týkající se hledání vhodných podmatic lze chápat jako úlohy [[https://onlinelibrary.wiley.com/doi/abs/10.1002/widm.1144|subgroup discovery]]. Podobně, dále uvedené úlohy týkající se asociačních pravidel a výjimek patří do oblasti [[https://research.monash.edu/en/publications/exception-rules-in-association-rule-mining|exception rules mining]], viz též informace uvedené [[http://what-when-how.com/information-science-and-technology/exception-rules-in-data-mining/|zde]]. Typové úlohy hledání výjimek a odlišností se týkají * [[lm_guha_di_typy_uloh_vyjimky#Histogramy|histogramů]], mohou být řešeny procedurou [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_proc|CF-Miner]] nebo [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_sdcf_proc|SDCF-Miner]] * [[lm_guha_di_typy_uloh_vyjimky#Asociační pravidla|asociačních pravidel]], mohou být řešeny procedurou [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_proc|4ft-Miner]] nebo [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_sd4ft_proc|SD4ft-Miner]] * [[lm_guha_di_typy_uloh_vyjimky#Kontingenční tabulky|kontingenčních tabulek]], mohou být řešeny procedurou [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_kl_proc|KL-Miner]] nebo [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_sdkl_proc|SDKL-Miner]]. ===== Histogramy ===== Pro histogramy jsou popsány následující typové úlohy na hledání výjimek a odlišností: - [[lm_guha_di_typy_uloh_vyjimky#Jiný tvar histogramu na podmatici|jiný tvar histogramu na podmatici]] - CF-Miner - [[lm_guha_di_typy_uloh_vyjimky#Jiný tvar histogramu na podmatici podmatice|jiný tvar histogramu na podmatici podmatice]] - CF-Miner - [[lm_guha_di_typy_uloh_vyjimky#Velká vzdálenost histogramů na podmatici a matici|velká vzdálenost histogramů na podmatici a matici]] - CF-Miner - [[lm_guha_di_typy_uloh_vyjimky#Velká vzdálenost daného histogramu na podmatici podmatice|velká vzdálenost daného histogramu na podmatici podmatice]] - \\ CF-Miner - [[lm_guha_di_typy_uloh_vyjimky#Různé tvary histogramu atributu A pro různé kategorie atributu B|různé tvary histogramu atributu A pro různé kategorie atributu B]] - SDCF-Miner - [[lm_guha_di_typy_uloh_vyjimky#Velká vzdálenost histogramů atributu A pro různé kategorie atributu B|velká vzdálenost histogramů atributu A pro různé kategorie atributu B]] - SDCF-Miner - [[lm_guha_di_typy_uloh_vyjimky#Výjimky týkající se histogramů pro podíl podmínky na kategoriích|výjimky týkající se histogramů pro podíl podmínky na kategoriích]] - SDCF-Miner. ==== Jiný tvar histogramu na podmatici ==== Úlohy tohoto typu lze charakterizovat takto: * Vyjdeme z tvaru histogramu na celé matici dat M. * Určíme tvar histogramu který chápeme jako zajímavou odlišnost k tvaru histogramu na celé matici. * Vyjádříme tento tvar pomocí [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_cf_kvantifikator|CF-kvantifikátoru]]. * Definujeme množinu [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_cf_proc#mnozina_relevantnich_cf-vyrazu|COND]] relevantních χ jako množinu podmínek pro proceduru [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_cf_proc|CF-Miner]]. * Pomocí procedury CF-Miner s případnými korekcemi parametrů najdeme všechny relevantní podmatice M/χ. Dále jsou uvedeny čtyři příklady ukazující možnosti hledání odlišností k tvaru histogramu na celé matici dat. Všechny příklady jsou již prezentovány jako příklady aplikací procedury CF-Miner. První dva příklady se týkají histogramu atributu [[lm_guha_di_hotel_pobyt_zacatek#atribut_pdentydne|PDenTydne]] matice dat [[lm_guha_di_hotel_prehled_skupin|Hotel]]. Histogram ukazuje procentuální podíl hostů přijíždějících do hotelu v jednotlivých dnech týdne, je uveden na následujícím obrázku. {{ :hotel_pdentydne_procenta.png?300 |}} První příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme podmatici Hotel/χ na níž jeden sloupec tohoto histogramu významně převyšuje ostatní sloupce. Taková situace je naznačena v levé části následujícího obrázku. Příslušné aplikace procedury CF-Miner jsou popsány [[https://lispminer.vse.cz/wiki/doku.php?id=lmdemo:hotel2015:task:cf|zde]], [[lm_guha_di_hist_max_prikl|zde]] a [[lm_guha_di_typul_cf#Data Hotel - jedna kategorie výrazně převažuje|zde]], obecný postup je [[lm_guha_di_hist_max_obecne|zde]]. Druhý příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme pokládáme podmatici Hotel/χ na níž mají všechny sloupce tohoto histogramu přibližně stejnou výšku. Taková situace je naznačena v pravé části následujícího obrázku. Příslušné aplikace procedury CF-Miner jsou popsány [[lm_guha_di_hist_mami_priklad|zde]] a [[lm_guha_di_typul_cf#Data Hotel - kategorie přibližně stejné frekvence|zde]], obecný postup je [[lm_guha_di_hist_mami_obecne|zde]]. {{ :hotel_pdentydne_procenta_odlisnosti.png?600 |}} Další dva příklady se týkají histogramu atributu [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]] matice dat [[lm_guha_di_hotel_prehled_skupin|Hotel]]. Histogram ukazuje procentuální podíl jednotlivých kategorií hodnocení, je uveden na následujícím obrázku (součet podílů je 101 díky zaokrouhlovací chybě). {{ :hotel_dhodnoceni_procenta.png?300 |}} Třetí příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme podmatici Hotel/χ na níž je tento histogram rostoucí. Taková situace je naznačena v levé části následujícího obrázku. Příslušné aplikace procedury CF-Miner jsou popsány příklady jsou [[lm_guha_di_hist_roste_priklad|zde]] a [[lm_guha_di_typul_cf#Data Hotel - histogram roste|zde]], obecný postup je [[lm_guha_di_hist_roste_obecne|zde]]. {{ :hotel_dhodnoceni_odlisnosti.png?600 |}} Čtvrtý příklad se týká situace, kdy za zajímavou odlišnost od celé matice Hotel pokládáme pokládáme podmatici Hotel/χ na níž je tento histogram klesající. Taková situace je naznačena v pravé části obrázku. Příslušné aplikace procedury CF-Miner jsou popsány [[lm_guha_di_hist_klesa_priklad|zde]], [[lm_guha_di_hist_klesa_obecne|zde]] a [[lm_guha_di_typul_cf#Data Hotel - histogram klesá|zde]]. ==== Jiný tvar histogramu na podmatici podmatice ==== Úlohy tohoto typu lze charakterizovat takto: * Vyjdeme z tvaru histogramu na celé matici dat M. * Najdeme podmatici M/ω na které má daný histogram zajímavý tvar odlišný od jeho tvaru na celé matici dat. Obvykle se použije procedura CF-Miner, je však možné použít například i [[https://lispminer.vse.cz/wiki/doku.php?id=lmianalysis:fa|frekvenční analýzu kategorií]]. * Určíme tvar histogramu který chápeme jako zajímavou odlišnost k tvaru histogramu na podmatici M/ω. * Vyjádříme tento tvar pomocí [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_cf_kvantifikator|CF-kvantifikátoru]]. * Definujeme množinu [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_cf_proc#mnozina_relevantnich_cf-vyrazu|COND]] relevantních ω∧κ jako množinu podmínek pro proceduru [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_cf_proc|CF-Miner]]. * Definice COND - relevantních ω∧κ má dvě části. První část je definicí jednoho booleovského atributu ω. Druhá část je definicí množiny relevantních booleovských atributů κ. * Pomocí procedury CF-Miner s případnými korekcemi parametrů najdeme všechny relevantní podmatice M/ω∧κ. Dále je uveden příklad ukazující možnosti hledání podmatic M/ω∧κ na nichž má histogram jiný tvar než na podmatici M/ω. Jedná se o příklad již prezentovaný jako příklad aplikace procedury CF-Miner. Týká se atributu [[lm_guha_di_accidents#time|Year]] matice dat [[lm_guha_di_accidents|Accidents]]. Histogram v levé části následujícího obrázku se týká celé matice Accidents a ukazuje počty dopravních nehod v letech 2005 až 2015. Vidíme, že až na jednu výjimku počty klesají. {{ :accidents_m_a_m_omega.png |}} Obrázek v pravé části ukazuje, že počty nehod na podmatici Accidents/ω týkající se malých motocyklů v městských oblastech rostou. Platí ω = {{:accidents_omega.png?400|}}. Zajímá nás tedy, zda existuje podmatice Accidents/ω∧κ na které histogram atributu Year klesá v posledních čtyřech letech (tedy tři roky po sobě). Příklad takového histogramu je na následujícím obrázku. {{ :accidents_omega_kappa.png?400 |}} Podrobnosti k příkladu jsou {{ :cf_miner_07_accidents_zadany_tvar_za_subpodminky.pdf |zde}}. ==== Velká vzdálenost histogramů na podmatici a matici ==== Úlohy tohoto typu lze charakterizovat takto: * Vyjdeme z tvaru histogramu na celé matici dat M. * Určíme minimální vzdálenost histogramu na M/χ od histogramu na M. * Vyjádříme podmínku na minimální vzdálenost pomocí [[https://lispminer.vse.cz/guhate/lib/exe/fetch.php?media=zadani_pattern_difference_cf_kvantifikatoru.pdf|CF-kvantifikátoru pattern - difference]]. * Definujeme množinu [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_cf_proc#mnozina_relevantnich_cf-vyrazu|COND]] relevantních χ jako množinu podmínek pro proceduru [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_cf_proc|CF-Miner]]. * Pomocí procedury CF-Miner s případnými korekcemi parametrů najdeme všechny relevantní podmatice M/χ. Dále je uveden příklad ukazující možnosti hledání podmatic M/χ takových, že vzdálenost histogramu na M/χ a histogramu na M je velká. Jedná se o příklad již prezentovaný jako příklad aplikace procedury CF-Miner. Týká se histogramu atributu [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]] matice dat [[lm_guha_di_hotel_prehled_skupin|Hotel]]. Histogram ukazuje procentuální podíl jednotlivých kategorií, je uveden v levé části následujícího obrázku (součet podílů je 101 díky zaokrouhlovací chybě). Histogram v pravé části obrázku se týká jisté podmatice M/χ. {{ :hotel_dhodnoceni_pattern_difference.png? |}} Vzdálenost těchto histogramů je |29-38| + |48-15| + |24-47| = 65. Příklad uvedený {{:cf_miner_09_hotel_vzdalenost_histogramu_odlisnost.pdf |zde}} se týká situace, kdy hledáme všechny podmatice matice Hotel, pro které platí, že vzdálenost histogramu atributu DHodnocení na podmatici od histogramu tohoto atributu na celé matici dat Hotel je nejméně 50. ==== Velká vzdálenost daného histogramu na podmatici podmatice ==== Text bude doplněn. ==== Různé tvary histogramu atributu A pro různé kategorie atributu B ==== Úlohy tohoto typu lze charakterizovat takto: * Vyjdeme z atributů A a B takových, že je zajímavé zabývat se odlišnostmi tvaru histogramu atributu A mezi různými kategoriemi atributu B. Příkladem jsou odlišnosti histogramu atributu [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]] mezi různými státy - kategoriemi atributu [[lm_guha_di_hotel_host_bydliste#atribut_hstat|HStat]] matice dat [[lm_guha_di_hotel_prehled_skupin|Hotel]]. * Pomocí vhodných [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_sdcf_kvantifikator|SDCF-kvantifikátorů]] definujeme dva různé tvary histogramu, jeden pro [[https://lispminer.vse.cz/guhate/lib/exe/fetch.php?media=sdcf_jednoduche_frekvencni_kvantifikatory.pdf|Operation mode]] //First set frequencies// a druhý pro Operation mode //Second set frequencies//. Například můžeme definovat, že pro //First set frequencies// histogram roste a že pro //Second set frequencies// histogram klesá. * Množiny ALFA a BETA (viz [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_sdcf_proc#mnozina_relevantnich_sdcf-vyrazu|zde]] a [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_sdcf_proc|zde]]) se zadávají jako množina všech základních booleovských atributů B(b), kde b je kategorie atributu B. To znamená, že se použije atribut B s nastavením koeficientů //subset 1-1//. Je možno použít i jedno nebo dvě nastavení //One category//. Pokud se toto nastavení použije pro ALFA i BETA, pak musí být obě kategorie různé. * Pokud nepoužijeme parametr CONDITION, pak porovnáváme [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_histogram|histogramy]] A/B(b1) a A/B(b2), kde pouze b1 a b2 jsou různé kategorie atributu B. Pokud parametr CONDITION použijeme, pak porovnáváme i histogramy A/χ∧B(b1) a A/χ∧B(b2), kde χ je jeden z booleovských atributů zadaných parametrem CONDITION. Příklad uvedený {{ :sdcf_miner_01_hotel_klesa_roste.pdf |zde}} se týká odlišností histogramu atributu [[lm_guha_di_hotel_dotaznik#Atribut DHodnoceni|DHodnoceni]] mezi různými státy - kategoriemi atributu [[lm_guha_di_hotel_host_bydliste#atribut_hstat|HStat]] matice dat [[lm_guha_di_hotel_prehled_skupin|Hotel]]. Jedná se o příklad již prezentovaný jako příklad aplikace procedury SDCF-Miner. Požadujeme, aby pro jeden stát histogram rostl a pro druhý stát aby klesal, je použit parametr CONDITION. V levé části následujícího obrázku je ukázka histogramu DHodnoceni/χ∧HStat(ČR) který roste, v pravé části je ukázka histogramu DHodnoceni/χ∧HStat(Německo), který klesá. {{ :hotel_dhodnoceni_roste_klesa.png |}} ==== Velká vzdálenost histogramů atributu A pro různé kategorie atributu B ==== Text bude doplněn, jedná se o aplikaci procedury SDCF-Miner podobnou předchozí ale s jinými SDCF-kvantifikátory. ==== Výjimky týkající se histogramů pro podíl podmínky na kategoriích ==== Analogické k výše uvedeným možnostem pro histogramy týkající se frekvencí, bude doplněno. ===== Asociační pravidla ===== Pro asociační pravidla jsou k dispozici následující typové úlohy na hledání výjimek a odlišností: - [[lm_guha_di_typy_uloh_vyjimky#Asociační pravidlo - výjimka z histogramu|asociační pravidlo - výjimka z histogramu]] - 4ft-Miner - [[lm_guha_di_typy_uloh_vyjimky#Výrazná změna hodnoty liftu prodloužením antecedentu|výrazná změna hodnoty liftu prodloužením antecedentu]] - 4ft-Miner - [[lm_guha_di_typy_uloh_vyjimky#Násobná změna konfidence pravidla dodatečnou podmínkou|násobná změna konfidence pravidla dodatečnou podmínkou]] - SD4ft-Miner - [[lm_guha_di_typy_uloh_vyjimky#Různé hodnoty charakteristiky pravidla pro podmatice dané různými kategoriemi atributu|různé hodnoty charakteristiky pravidla pro podmatice dané různými kategoriemi atributu ]] - SD4ft-Miner - [[lm_guha_di_typy_uloh_vyjimky#Jiné charakteristiky pravidla na podmatici|jiné charakteristiky pravidla na podmatici]] - 4ft-Miner - [[lm_guha_di_typy_uloh_vyjimky#Jiné charakteristiky pravidla na podmatici podmatice|jiné charakteristiky pravidla na podmatici podmatice]] - 4ft-Miner. ==== Asociační pravidlo - výjimka z histogramu ==== Úlohy tohoto typu lze charakterizovat takto: * Vyjdeme z histogramu atributu A. Hledáme pravidla φ → A(ai) taková, že jejich konfidence splňuje jednu z podmínek: * je alespoň X-krát nižší, než odpovídá výšce sloupce ai v histogramu na celé matici dat M * je alespoň X-krát nižší, než odpovídá výšce sloupce ai v histogramu na některé z relevantních podmatic M/✘ * je alespoň X-krát vyšší, než odpovídá výšce sloupce ai v histogramu na celé matici dat M * je alespoň X-krát vyšší, než odpovídá výšce sloupce ai v histogramu na některé z relevantních podmatic M/✘ * Požadovanou podmínku nastavíme pomocí vhodného [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_kvantifikator&do=|4ft-kvantifikátoru frequency-difference]]. * Jako [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_proc|zadání množiny relevantních antecedentů]] použijeme zadání relevantních φ. * Jako [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_proc|zadání množiny relevantních sukcedentů]] použijeme atribut B s nastavením koeficientů subset 1-1 * Jako [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_4ft_proc|zadání množiny relevantních podmínek]] použijeme zadání množiny relevantních ✘. Dále jsou uvedeny dva příklady ukazující možnosti hledání asociačních pravidel - výjimek z histogramu. Oba příklady jsou již prezentovány jako příklady aplikací procedury 4ft-Miner. {{ :insolvency_asoc_prav_jako_vyjimka.png |}} **První příklad** se týká hledání asociačních pravidel φ → A(ai) takových, že jejich konfidence je alespoň čtyřikrát nižší, než odpovídá výšce sloupce ai v histogramu na celé matici dat. Taková situace je naznačena v levé části předcházejícího obrázku, podrobnosti jsou k dispozici [[lm_guha_di_typul_4ft#data_insolvency_-_konfidence_nizsi_nez_odpovida_sloupci_histogramu_na_cele_matici_dat|zde]]. **Druhý příklad** se týká hledání asociačních pravidel φ → A(ai) takových, že jejich konfidence je alespoň je alespoň dvakrát vyšší, než odpovídá výšce sloupce ai v histogramu na dané podmatici dat. Taková situace je naznačena v pravé části předcházejícího obrázkupodrobnosti jsou k dispozici [[lm_guha_di_typul_4ft#data_hotel_-_konfidence_vyssi_nez_odpovida_sloupci_histogramu_na_podmatici_dat|zde]]. ==== Výrazná změna hodnoty liftu prodloužením antecedentu ==== Úlohy tohoto typu lze charakterizovat takto: * Najdeme zajímavé pravidlo s liftem výrazně vyšším nebo nižším než je jedna. Jeho antecedent chápeme jako podmínku P. To znamená, že relativní četnost sukcedentu za podmínky P je výrazně vyšší nebo nižší než je relativní četnost sukcedentu v celé matici dat. * Zajímá nás, zda existuje dodatečná podmínka D taková, že pokud platí P i D, pak je relativní četnost téhož sukcedentu výrazně nižší nebo vyšší než je jeho relativní četnost v celé matici dat. Jako příklad takové úlohy uvádíme úlohu týkající se dat [[lm_guha_di_accidents|Accidents]] a problému: Existuje podmínka P, dodatečná podmínka D a závažnost Z nehody takové, že zároveň platí: * relativní četnost nehod se závažností Z za podmínky P je vyšší než relativní četnost poruch se závažnosti Z mezi všemi nehodami * relativní četnost nehod se závažností Z je za současné platnosti podmínky P i dodatečné podmínky D nižší, než je relativní četnost nehod se závažnosti Z mezi všemi nehodami? Ukázka řešení takové úlohy je uvedena [[lm_guha_di_typul_4ft#vyrazna_zmena_liftu_prodlouzenim_antecedentu|zde]]. ==== Násobná změna konfidence pravidla dodatečnou podmínkou ==== Úlohy tohoto typu lze charakterizovat takto: * Je dán booleovský atribut ψ pro jehož relativní četnost je za dané podmínky φ příliš nízká nebo příliš vysoká. * Zajímá nás, za jakých dodatečných podmínek ω se relativní četnost atributu φ násobně zvýší nebo násobně sníží. * To znamená, že hledáme dvojici asociačních pravidel φ ≈ ψ a φ ∧ ω ≈ ψ takových, že konfidence asociačního pravidla φ ∧ ω ≈ ψ je násobně vyšší nebo nižší, než je konfidence pravidla φ ≈ ψ. Takové úlohy lze řešit pomocí procedury [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_sd4ft_proc|SD4ft-Miner]]. Uvedenou úlohu převedeme na úlohu hledání dvojice podmíněných asociačních pravidel //True// ≈ ψ/φ a //True// ≈ ψ/φ∧ω takových, že konfidence podmíněného asociačního pravidla //True// ≈ ψ/φ∧ω je násobně vyšší nebo nižší, než je konfidence podmíněného asociačního pravidla //True// ≈ ψ/φ. //True// značí [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_bool|identicky pravdivý booleovský atribut]]. Dále jsou uvedeny dva příklady ukazující možnosti hledání dvojic podmíněných asociačních pravidel \\ //True// ≈ ψ/φ a //True// ≈ ψ/φ∧ω takových, že konfidence //True// ≈ ψ/φ∧ω je násobně vyšší nebo nižší, než je konfidence //True// ≈ ψ/φ. Oba příklady se týkají dat [[lm_guha_di_hotel_prehled_skupin|Hotel]] a jsou již prezentovány jako příklady aplikací procedury SD4ft-Miner. **První příklad** se týká hledání asociačních pravidel //True// ≈ ψ/φ∧ω takových, že jejich konfidence nejméně 1,5 krát vyšší, než je konfidence podmíněného asociačního pravidla //True// ≈ ψ/φ. Podrobnosti o příkladu jsou uvedeny [[lm_guha_di_typul_sd4ft#data_hotel_-_nasobne_zvyseni_konfidence_dodatecnou_podminkou|zde]]. **Druhý příklad** se týká hledání asociačních pravidel //True// ≈ ψ/φ∧ω takových, že jejich konfidence je rovna maximálně 0,75 konfidence podmíněného asociačního pravidla //True// ≈ ψ/φ. Podrobnosti o příkladu jsou uvedeny [[lm_guha_di_typul_sd4ft#data_hotel_-_nasobne_snizeni_konfidence_dodatecnou_podminkou|zde]]. Oba příklady lze také chápat jako úlohy na [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_ac_pravidlo|akční pravidla]], které ale nejsou řešeny řešena pomocí procedury [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_ac4ft_proc|Ac4ft-Miner]]. ==== Různé hodnoty charakteristiky pravidla pro podmatice dané různými kategoriemi atributu ==== Úlohy tohoto typu lze charakterizovat takto: * Je dán atribut A a zajímá nás, zda se zadaným minimálním způsobem liší charakteristiky podmíněných pravidel φ ≈ ψ/A(a1) a φ ≈ ψ/A(a2). * Takovou odlišnost asociačních pravidel potom chápeme jako odlišnost podmatic M/A(a1) a M/A(a2) analyzované matice dat M. * Je možno řešit úlohu nalezení dvojice nejvíce odlišných podmatic M/A(a) a M/A(a') nebo úlohu nalezení podmatice M/A(a), která se nejvíce liší od dané podmatice M/A(a0). Takové úlohy lze řešit pomocí procedury [[https://lispminer.vse.cz/guhate/doku.php?id=lm_guha_te_sd4ft_proc|SD4ft-Miner]]. Dále je poukázáno na čtyři úlohy uvedeného typu jejichž řešení je již prezentováno pomocí příkladů aplikací procedury SD4ft-Miner. První tři úlohy se týkají atributu [[lm_guha_di_hotel_host_bydliste#atribut_hstat|HStat]] dat [[lm_guha_di_hotel_prehled_skupin|Hotel]]. **První úloha ** se týká hledání dvojic států, pro které je pro některé skupiny hostů rozdíl procentuálních podílů nějaké kombinace výsledků v dotazníku větší než daná mez. Pro tuto úlohu jsou k dva příklady. První je [[lm_guha_di_sd4ft_conf_rozdil_priklad|popsán v této wiki]], je k dispozici i [[lm_guha_di_sd4ft_conf_rozdil_obecne|obecný postup pro řešení podobných úloh]]. Druhý příklad je popsán v pdf-souboru dostupném [[lm_guha_di_typul_sd4ft#data_hotel_-_vysoky_rozdil_konfidenci_1|zde]]. Ve druhém příkladu je také ukázáno, že tuto úlohu nelze řešit pomocí procedury 4ft-Miner. **Druhá úloha ** se týká hledání slovanských států, pro které je pro některé skupiny hostů rozdíl procentuálního podíl nějaké kombinace výsledků v dotazníku od téhož podílu v německy mluvících státech větší než daná mez. Pro tuto úlohu je k dispozici příklad popsaný v pdf-souboru dostupném [[lm_guha_di_typul_sd4ft#data_hotel_-_vysoky_rozdil_konfidenci_2|zde]]. **Třetí úloha ** se týká hledání dvojic států, pro které je pro některé skupiny hostů podíl procentuálních podílů nějaké kombinace výsledků v dotazníku větší než daná mez. Pro tuto úlohu je k dispozici [[lm_guha_di_sd4ft_conf_nasobek_priklad|příklad popsaný v této wiki]] a také [[lm_guha_di_sd4ft_conf_nasobek__obecne|obecný postup pro řešení podobných úloh]]. **Čtvrtá úloha ** se týká dat [[lm_guha_di_accidents|Accidents]] a řeší otázku rozdílů mezi muži a ženami co se týče relativní četnosti nehod s různou závažností pro různé kombinace charakteristiky řidiče a okolností nehody. Podrobnosti jsou uvedeny [[lm_guha_di_typul_sd4ft#data_accidents_-_vyuziti_pomeru_konfidenci|zde]]. ==== Jiné charakteristiky pravidla na podmatici ==== Jedná se o úlohu na podmíněná asociační pravidla. Poznamenejme, že podmíněná asociační pravidla nejsou definována v souvislosti s algoritmem apriori. Tato část bude doplněna. Prozatím je k dispozici obecná úloha na podmíněná pravidla, viz [[lm_guha_di_typul_4ft#podminena_asociacni_pravidla|zde]]. ==== Jiné charakteristiky pravidla na podmatici podmatice ==== Jedná se o úlohu na podmíněná asociační pravidla s fixovanou částí podmínky. Tato část bude doplněna. ===== Kontingenční tabulky ===== Pro kontingenční tabulky jsou k dispozici následující typové úlohy na hledání výjimek a odlišností: Bude doplněno, prozatím lze využít příklady aplikací procedury KL-Miner, viz [[lm_guha_di_typul_kl|zde]].