====== Neúplná informace ====== Zpracování neúplné informace je jeden z důležitých problémů data mining. Při vývoji metody GUHA byl tento problém řešen od sedmdesátých let minulého století, viz např. články [[https://dml.cz/handle/10338.dmlcz/125685|The GUHA method and the three-valued logic]] a [[https://dml.cz/handle/10338.dmlcz/124409|Ein Beitrag zu der GUHA Methode in der dreiwertigen Logik]]. Důležité výsledky o neúplné informaci jsou shrnuty v monografii [[https://www.springer.com/us/book/9783540087380|Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory)]], některé další výsledky jsou i v monografii [[http://link.springer.com/book/10.1007/978-3-642-11737-4|Observational Calculi and Association Rules]]. Porovnání přístupů k neúplné informací v proceduře 4ft-Miner a v arules package v systému R je v článku [[https://content.iospress.com/articles/intelligent-data-analysis/ida160069|Apriori and GUHA – Comparing two approaches to data mining with association rules]], viz též [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_adult_-_chybejici_informace|příklad]]. Nejdůležitějším výsledkem je [[lm_guha_te_missings#Zabezpečený přístup k neúplné informaci|zabezpečený přístup k neúplné informaci]], kdy je asociační pravidlo považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé ve všech možných doplněních matice skutečnými hodnotami. Alternativním přístupem k neúplné informaci je [[lm_guha_te_missings#Optimistické doplnění|optimistické doplnění]]. V souvislosti s metodou GUHA se používá i [[lm_guha_te_missings#Vynechání neúplné informace|vynechání neúplné informace]]. V proceduře 4ft-Miner je implementován i přístup [[lm_guha_te_missings#Ignorování neúplné informace|ignorování neúplné informace]] implementovaný v arules package, který je součástí systému R. Zvláštní pozornost v souvislosti s neúplnou informací je věnována [[lm_guha_te_missings#Neúplná informace a podmíněná asociační pravidla|podmíněným asociačním pravidlům]]. ===== Zabezpečený přístup k neúplné informaci ===== Zabezpečený přístup k neúplné informaci vychází z pojmů //matice dat s neúplnou informací// a //doplnění matice dat s neúplnou informací//. V levé části následujícího obrázku je ukázka matice dat s neúplnou informací, chybějící hodnoty se značí X. V pravé části doplnění této matice, všechny chybějící hodnoty jsou nahrazeny přípustnými hodnotami. {{ :doplneni_matice.png?600 |}} Zabezpečený přístup k neúplné informaci se týká všech formulí Φ souvisejících s asociačními pravidly, tedy základních booleovských atributů, odvozených booleovských atributů i asociačních pravidel. Určuje se hodnota formule Φ v matici dat **M**X s neúplnou informací, každá formule nabývá jednu z hodnot 0, 1, X. Hodnota formule Φ v matici dat **M**X s neúplnou informací je * 1, pokud je hodnota této formule 1 v každém doplnění matice **M**X * 0, pokud je hodnota této formule 0 v každém doplnění matice **M**X * X jindy, tedy pokud existují doplnění **M**1 a **M**2 matice **M**X tak, že * hodnota formule Φ v **M**1 je 1 * hodnota formule Φ v **M**2 je 0. Podrobnosti o určení hodnot v matici dat s neúplnou informací * pro základní a odvozené booleovské atributy jsou {{ :missings_booleovske_atributy.pdf |zde}} * pro asociační pravidla jsou ve formě úvah a příkladů {{ :missings_pravidla_priklady.pdf |zde}}, formálnější popis je {{ :missings_pravidla_formalnejsi_popis.pdf |zde}}. ===== Optimistické doplnění ===== Podstatou optimistického doplnění je, že asociační pravidlo je považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé alespoň v jednom doplnění této matice. Podrobnosti jsou uvedeny {{ :missings_optimisticke_doplneni.pdf |zde}}. ===== Vynechání neúplné informace ===== Podstatou vynechání neúplné informace je, že se pro verifikaci využije čtyřpolní tabulka vzniklá z devítipolní tabulky vynecháním polí, která se týkají chybějící informace. Podrobnosti jsou {{ :missings_vynechani.pdf |zde}}. ===== Ignorování neúplné informace ===== Při zpracování se neúplná informace ignoruje v tom smyslu, že kód chybějící hodnoty X se považuje za speciální kategorii. Tato kategorie zůstává skryta a nelze ji použít při zadání relevantních koeficientů. Podrobnosti jsou {{ :missings_ignorovani.pdf |zde}}. ===== Neúplná informace a podmíněná asociační pravidla ===== Pro podmíněná asociační pravidla φ≈ψ/χ je možno s jistým, dále popsaným omezením, používat všechny čtyři možnosti práce s neúplnou informací jako pro nepodmíněná pravidla φ≈ψ. Rozdíl je v tom, že verifikace podmíněného asociačního pravidla v matici dat **M**X s neúplnou nevychází z devítipolní tabulky 9ft(φ,ψ,**M**X), ale ze dvou devítipolních tabulek 9ft(φ,ψ,**M**X1) a 9ft(φ,ψ,**M**XX), viz následující obrázek. {{ :dve_devitipolni_tabulky.png |}} Devítipolní tabulka 9ft(φ,ψ,**M**X1) se týká trojhodnotových atributů φ a ψ v matici dat **M**X1, která se skládá ze všech řádku matice **M**X, pro které je atribut χ pravdivý. Tedy f1,1,1 je počet řádků matice **M**X pro které jsou atributy φ, ψ i χ pravdivé; f1,X,1 je počet řádků matice **M**X pro které jsou atributy φ a χ pravdivé a atribut ψ nabývá hodnotu X, atd. Devítipolní tabulka 9ft(φ,ψ,**M**XX) se týká trojhodnotových atributů φ a ψ v matici dat **M**XX, která se skládá ze všech řádku matice **M**X, pro které atribut χ nabývá hodnotu X. Tedy f1,1,X je počet řádků matice **M**X pro které jsou atributy φ a ψ pravdivé a atribut χ nabývá hodnotu X; f1,X,X je počet řádků matice **M**X pro které je atribut φ pravdivý a atributy ψ a χ nabývají hodnotu X, atd. Z těchto devítipolních tabulek se vypočítá čtyřpolní tabulka pro verifikaci v závislosti na tom, zda se jedná o [[lm_guha_te_missings#Podmíněná pravidla a zabezpečené doplnění|zabezpečené doplnění]], [[lm_guha_te_missings#Podmíněná pravidla a optimistické doplnění|optimistické doplnění]], [[lm_guha_te_missings#Podmíněná pravidla a vynechání neúplné informace|vynechání neúplné informace]] nebo [[lm_guha_te_missings#Podmíněná pravidla a ignorování neúplné informace|ignorování neúplné informace]]. ==== Podmíněná pravidla a zabezpečené doplnění ==== V případě zabezpečeného doplnění je podmíněné asociační pravidlo považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé ve všech možných doplněních matice skutečnými hodnotami. Podrobnosti jsou {{ :missings_podminena_pravidla_zabezpecene_doplneni.pdf |zde}}. ==== Podmíněná pravidla a optimistické doplnění ==== Při optimistickém doplnění je podmíněné asociační pravidlo považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé alespoň v jednom doplnění této matice. Podrobnosti jsou {{ :missings_podminena_pravidla_optimisticke_doplneni.pdf |zde}}. ==== Podmíněná pravidla a vynechání neúplné informace ==== Podstatou vynechání neúplné informace je, že se pro verifikaci využije čtyřpolní tabulka vzniklá vynecháním polí, která se týkají chybějící informace. Podrobnosti jsou {{ :missings_podminena_pravidla_vynechani.pdf |zde}}. ==== Podmíněná pravidla a ignorování neúplné informace ==== Při zpracování se neúplná informace ignoruje v tom smyslu, že kód chybějící hodnoty X se považuje za speciální kategorii. Tato kategorie zůstává skryta a nelze ji použít při zadání relevantních koeficientů. Podrobnosti jsou {{ :missings_podminena_pravidla_ignorovani.pdf |zde}}.