Zpracování neúplné informace je jeden z důležitých problémů data mining. Při vývoji metody GUHA byl tento problém řešen od sedmdesátých let minulého století, viz např. články The GUHA method and the three-valued logic a Ein Beitrag zu der GUHA Methode in der dreiwertigen Logik. Důležité výsledky o neúplné informaci jsou shrnuty v monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory), některé další výsledky jsou i v monografii Observational Calculi and Association Rules. Porovnání přístupů k neúplné informací v proceduře 4ft-Miner a v arules package v systému R je v článku Apriori and GUHA – Comparing two approaches to data mining with association rules, viz též příklad.
Nejdůležitějším výsledkem je zabezpečený přístup k neúplné informaci, kdy je asociační pravidlo považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé ve všech možných doplněních matice skutečnými hodnotami.
Alternativním přístupem k neúplné informaci je optimistické doplnění. V souvislosti s metodou GUHA se používá i vynechání neúplné informace. V proceduře 4ft-Miner je implementován i přístup ignorování neúplné informace implementovaný v arules package, který je součástí systému R.
Zvláštní pozornost v souvislosti s neúplnou informací je věnována podmíněným asociačním pravidlům.
Zabezpečený přístup k neúplné informaci vychází z pojmů matice dat s neúplnou informací a doplnění matice dat s neúplnou informací. V levé části následujícího obrázku je ukázka matice dat s neúplnou informací, chybějící hodnoty se značí X. V pravé části doplnění této matice, všechny chybějící hodnoty jsou nahrazeny přípustnými hodnotami.
Zabezpečený přístup k neúplné informaci se týká všech formulí Φ souvisejících s asociačními pravidly, tedy základních booleovských atributů, odvozených booleovských atributů i asociačních pravidel. Určuje se hodnota formule Φ v matici dat MX s neúplnou informací, každá formule nabývá jednu z hodnot 0, 1, X. Hodnota formule Φ v matici dat MX s neúplnou informací je
Podrobnosti o určení hodnot v matici dat s neúplnou informací
Podstatou optimistického doplnění je, že asociační pravidlo je považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé alespoň v jednom doplnění této matice. Podrobnosti jsou uvedeny zde.
Podstatou vynechání neúplné informace je, že se pro verifikaci využije čtyřpolní tabulka vzniklá z devítipolní tabulky vynecháním polí, která se týkají chybějící informace. Podrobnosti jsou zde.
Při zpracování se neúplná informace ignoruje v tom smyslu, že kód chybějící hodnoty X se považuje za speciální kategorii. Tato kategorie zůstává skryta a nelze ji použít při zadání relevantních koeficientů. Podrobnosti jsou zde.
Pro podmíněná asociační pravidla φ≈ψ/χ je možno s jistým, dále popsaným omezením, používat všechny čtyři možnosti práce s neúplnou informací jako pro nepodmíněná pravidla φ≈ψ. Rozdíl je v tom, že verifikace podmíněného asociačního pravidla v matici dat MX s neúplnou nevychází z devítipolní tabulky 9ft(φ,ψ,MX), ale ze dvou devítipolních tabulek 9ft(φ,ψ,MX/χ1) a 9ft(φ,ψ,MX/χX), viz následující obrázek.
Devítipolní tabulka 9ft(φ,ψ,MX/χ1) se týká trojhodnotových atributů φ a ψ v matici dat MX/χ1, která se skládá ze všech řádku matice MX, pro které je atribut χ pravdivý. Tedy f1,1,1 je počet řádků matice MX pro které jsou atributy φ, ψ i χ pravdivé; f1,X,1 je počet řádků matice MX pro které jsou atributy φ a χ pravdivé a atribut ψ nabývá hodnotu X, atd.
Devítipolní tabulka 9ft(φ,ψ,MX/χX) se týká trojhodnotových atributů φ a ψ v matici dat MX/χX, která se skládá ze všech řádku matice MX, pro které atribut χ nabývá hodnotu X. Tedy f1,1,X je počet řádků matice MX pro které jsou atributy φ a ψ pravdivé a atribut χ nabývá hodnotu X; f1,X,X je počet řádků matice MX pro které je atribut φ pravdivý a atributy ψ a χ nabývají hodnotu X, atd.
Z těchto devítipolních tabulek se vypočítá čtyřpolní tabulka pro verifikaci v závislosti na tom, zda se jedná o zabezpečené doplnění, optimistické doplnění, vynechání neúplné informace nebo ignorování neúplné informace.
V případě zabezpečeného doplnění je podmíněné asociační pravidlo považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé ve všech možných doplněních matice skutečnými hodnotami. Podrobnosti jsou zde.
Při optimistickém doplnění je podmíněné asociační pravidlo považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé alespoň v jednom doplnění této matice. Podrobnosti jsou zde.
Podstatou vynechání neúplné informace je, že se pro verifikaci využije čtyřpolní tabulka vzniklá vynecháním polí, která se týkají chybějící informace. Podrobnosti jsou zde.
Při zpracování se neúplná informace ignoruje v tom smyslu, že kód chybějící hodnoty X se považuje za speciální kategorii. Tato kategorie zůstává skryta a nelze ji použít při zadání relevantních koeficientů. Podrobnosti jsou zde.