====== Neúplná informace ======
Zpracování neúplné informace je jeden z důležitých problémů data mining. Při vývoji metody GUHA byl tento
problém řešen od sedmdesátých let minulého století, viz např. články
[[https://dml.cz/handle/10338.dmlcz/125685|The GUHA method and the three-valued logic]]
a
[[https://dml.cz/handle/10338.dmlcz/124409|Ein Beitrag zu der GUHA Methode in der dreiwertigen Logik]].
Důležité výsledky o neúplné informaci jsou shrnuty v monografii
[[https://www.springer.com/us/book/9783540087380|Mechanizing Hypothesis Formation
(Mathematical Foundations for a General Theory)]], některé další výsledky jsou i v monografii
[[http://link.springer.com/book/10.1007/978-3-642-11737-4|Observational Calculi and Association Rules]].
Porovnání přístupů k neúplné informací v proceduře 4ft-Miner a v arules package v systému R je v článku
[[https://content.iospress.com/articles/intelligent-data-analysis/ida160069|Apriori and GUHA – Comparing
two approaches to data mining with association rules]], viz též
[[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_typul_4ft#data_adult_-_chybejici_informace|příklad]].
Nejdůležitějším výsledkem je
[[lm_guha_te_missings#Zabezpečený přístup k neúplné informaci|zabezpečený přístup k neúplné informaci]], kdy je asociační pravidlo považováno za pravdivé v matici dat s neúplnou
informací, pokud je pravdivé ve všech možných doplněních matice skutečnými hodnotami.
Alternativním přístupem k neúplné informaci je
[[lm_guha_te_missings#Optimistické doplnění|optimistické doplnění]]. V souvislosti s metodou GUHA se používá i
[[lm_guha_te_missings#Vynechání neúplné informace|vynechání neúplné informace]].
V proceduře 4ft-Miner je implementován i přístup
[[lm_guha_te_missings#Ignorování neúplné informace|ignorování neúplné informace]]
implementovaný v arules package, který je součástí systému R.
Zvláštní pozornost v souvislosti s neúplnou informací je věnována
[[lm_guha_te_missings#Neúplná informace a podmíněná asociační pravidla|podmíněným asociačním pravidlům]].
===== Zabezpečený přístup k neúplné informaci =====
Zabezpečený přístup k neúplné informaci vychází z pojmů //matice dat s neúplnou informací// a
//doplnění matice dat s neúplnou informací//. V levé části následujícího obrázku je ukázka matice dat s neúplnou
informací, chybějící hodnoty se značí X. V pravé části doplnění této matice, všechny chybějící hodnoty jsou
nahrazeny přípustnými hodnotami.
{{ :doplneni_matice.png?600 |}}
Zabezpečený přístup k neúplné informaci se týká všech formulí Φ souvisejících s asociačními pravidly, tedy
základních booleovských atributů, odvozených booleovských atributů i asociačních pravidel.
Určuje se hodnota formule Φ v matici dat **M**X s neúplnou informací, každá formule nabývá
jednu z hodnot 0, 1, X.
Hodnota formule Φ v matici dat **M**X s neúplnou informací je
* 1, pokud je hodnota této formule 1 v každém doplnění matice **M**X
* 0, pokud je hodnota této formule 0 v každém doplnění matice **M**X
* X jindy, tedy pokud existují doplnění **M**1 a **M**2 matice **M**X tak, že
* hodnota formule Φ v **M**1 je 1
* hodnota formule Φ v **M**2 je 0.
Podrobnosti o určení hodnot v matici dat s neúplnou informací
* pro základní a odvozené booleovské atributy jsou {{ :missings_booleovske_atributy.pdf |zde}}
* pro asociační pravidla jsou ve formě úvah a příkladů {{ :missings_pravidla_priklady.pdf |zde}}, formálnější popis je {{ :missings_pravidla_formalnejsi_popis.pdf |zde}}.
===== Optimistické doplnění =====
Podstatou optimistického doplnění je, že asociační pravidlo je považováno
za pravdivé v matici dat s neúplnou informací, pokud je pravdivé alespoň v jednom doplnění této matice.
Podrobnosti jsou uvedeny {{ :missings_optimisticke_doplneni.pdf |zde}}.
===== Vynechání neúplné informace =====
Podstatou vynechání neúplné informace je, že se pro verifikaci využije čtyřpolní tabulka vzniklá z devítipolní
tabulky vynecháním polí, která se týkají chybějící informace. Podrobnosti jsou {{ :missings_vynechani.pdf |zde}}.
===== Ignorování neúplné informace =====
Při zpracování se neúplná informace ignoruje v tom smyslu, že
kód chybějící hodnoty X se považuje za speciální kategorii.
Tato kategorie zůstává skryta a nelze ji použít při zadání relevantních koeficientů.
Podrobnosti jsou {{ :missings_ignorovani.pdf |zde}}.
===== Neúplná informace a podmíněná asociační pravidla =====
Pro podmíněná asociační pravidla φ≈ψ/χ je možno s jistým, dále popsaným omezením, používat všechny čtyři možnosti práce s neúplnou informací jako pro
nepodmíněná pravidla φ≈ψ. Rozdíl je v tom, že verifikace podmíněného asociačního pravidla v matici dat
**M**X s neúplnou nevychází z devítipolní tabulky 9ft(φ,ψ,**M**X), ale ze dvou devítipolních
tabulek 9ft(φ,ψ,**M**X/χ1) a 9ft(φ,ψ,**M**X/χX),
viz následující obrázek.
{{ :dve_devitipolni_tabulky.png |}}
Devítipolní tabulka 9ft(φ,ψ,**M**X/χ1) se týká trojhodnotových atributů φ a ψ v matici
dat **M**X/χ1, která se skládá ze všech řádku matice **M**X,
pro které je atribut χ pravdivý.
Tedy f1,1,1 je počet řádků matice **M**X pro které jsou atributy φ, ψ i χ pravdivé;
f1,X,1 je počet řádků matice **M**X pro které jsou atributy φ a χ pravdivé a atribut ψ
nabývá hodnotu X, atd.
Devítipolní tabulka 9ft(φ,ψ,**M**X/χX) se týká trojhodnotových atributů φ a ψ v matici
dat **M**X/χX, která se skládá ze všech řádku matice **M**X,
pro které atribut χ nabývá hodnotu X.
Tedy f1,1,X je počet řádků matice **M**X pro které jsou atributy φ a ψ pravdivé a atribut
χ nabývá hodnotu X;
f1,X,X je počet řádků matice **M**X pro které je atribut φ pravdivý a atributy ψ a χ
nabývají hodnotu X, atd.
Z těchto devítipolních tabulek se vypočítá čtyřpolní tabulka pro verifikaci v závislosti na tom, zda se
jedná o [[lm_guha_te_missings#Podmíněná pravidla a zabezpečené doplnění|zabezpečené doplnění]],
[[lm_guha_te_missings#Podmíněná pravidla a optimistické doplnění|optimistické doplnění]],
[[lm_guha_te_missings#Podmíněná pravidla a vynechání neúplné informace|vynechání neúplné informace]] nebo
[[lm_guha_te_missings#Podmíněná pravidla a ignorování neúplné informace|ignorování neúplné informace]].
==== Podmíněná pravidla a zabezpečené doplnění ====
V případě zabezpečeného doplnění je podmíněné asociační pravidlo považováno za pravdivé v matici
dat s neúplnou informací, pokud je pravdivé ve všech možných doplněních matice skutečnými hodnotami.
Podrobnosti jsou {{ :missings_podminena_pravidla_zabezpecene_doplneni.pdf |zde}}.
==== Podmíněná pravidla a optimistické doplnění ====
Při optimistickém doplnění je podmíněné asociační pravidlo považováno za pravdivé
v matici dat s neúplnou informací, pokud je pravdivé alespoň v jednom doplnění této matice.
Podrobnosti jsou {{ :missings_podminena_pravidla_optimisticke_doplneni.pdf |zde}}.
==== Podmíněná pravidla a vynechání neúplné informace ====
Podstatou vynechání neúplné informace je, že se pro verifikaci využije
čtyřpolní tabulka vzniklá vynecháním polí, která se týkají chybějící informace.
Podrobnosti jsou {{ :missings_podminena_pravidla_vynechani.pdf |zde}}.
==== Podmíněná pravidla a ignorování neúplné informace ====
Při zpracování se neúplná informace ignoruje v tom smyslu, že kód
chybějící hodnoty X se považuje za speciální kategorii. Tato kategorie zůstává
skryta a nelze ji použít při zadání relevantních koeficientů. Podrobnosti jsou
{{ :missings_podminena_pravidla_ignorovani.pdf |zde}}.