Obsah

Neúplná informace

Zpracování neúplné informace je jeden z důležitých problémů data mining. Při vývoji metody GUHA byl tento problém řešen od sedmdesátých let minulého století, viz např. články The GUHA method and the three-valued logic a Ein Beitrag zu der GUHA Methode in der dreiwertigen Logik. Důležité výsledky o neúplné informaci jsou shrnuty v monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory), některé další výsledky jsou i v monografii Observational Calculi and Association Rules. Porovnání přístupů k neúplné informací v proceduře 4ft-Miner a v arules package v systému R je v článku Apriori and GUHA – Comparing two approaches to data mining with association rules, viz též příklad.

Nejdůležitějším výsledkem je zabezpečený přístup k neúplné informaci, kdy je asociační pravidlo považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé ve všech možných doplněních matice skutečnými hodnotami.

Alternativním přístupem k neúplné informaci je optimistické doplnění. V souvislosti s metodou GUHA se používá i vynechání neúplné informace. V proceduře 4ft-Miner je implementován i přístup ignorování neúplné informace implementovaný v arules package, který je součástí systému R.

Zvláštní pozornost v souvislosti s neúplnou informací je věnována podmíněným asociačním pravidlům.

Zabezpečený přístup k neúplné informaci

Zabezpečený přístup k neúplné informaci vychází z pojmů matice dat s neúplnou informací a doplnění matice dat s neúplnou informací. V levé části následujícího obrázku je ukázka matice dat s neúplnou informací, chybějící hodnoty se značí X. V pravé části doplnění této matice, všechny chybějící hodnoty jsou nahrazeny přípustnými hodnotami.

Zabezpečený přístup k neúplné informaci se týká všech formulí Φ souvisejících s asociačními pravidly, tedy základních booleovských atributů, odvozených booleovských atributů i asociačních pravidel. Určuje se hodnota formule Φ v matici dat MX s neúplnou informací, každá formule nabývá jednu z hodnot 0, 1, X. Hodnota formule Φ v matici dat MX s neúplnou informací je

Podrobnosti o určení hodnot v matici dat s neúplnou informací

Optimistické doplnění

Podstatou optimistického doplnění je, že asociační pravidlo je považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé alespoň v jednom doplnění této matice. Podrobnosti jsou uvedeny zde.

Vynechání neúplné informace

Podstatou vynechání neúplné informace je, že se pro verifikaci využije čtyřpolní tabulka vzniklá z devítipolní tabulky vynecháním polí, která se týkají chybějící informace. Podrobnosti jsou zde.

Ignorování neúplné informace

Při zpracování se neúplná informace ignoruje v tom smyslu, že kód chybějící hodnoty X se považuje za speciální kategorii. Tato kategorie zůstává skryta a nelze ji použít při zadání relevantních koeficientů. Podrobnosti jsou zde.

Neúplná informace a podmíněná asociační pravidla

Pro podmíněná asociační pravidla φ≈ψ/χ je možno s jistým, dále popsaným omezením, používat všechny čtyři možnosti práce s neúplnou informací jako pro nepodmíněná pravidla φ≈ψ. Rozdíl je v tom, že verifikace podmíněného asociačního pravidla v matici dat MX s neúplnou nevychází z devítipolní tabulky 9ft(φ,ψ,MX), ale ze dvou devítipolních tabulek 9ft(φ,ψ,MX1) a 9ft(φ,ψ,MXX), viz následující obrázek.

Devítipolní tabulka 9ft(φ,ψ,MX1) se týká trojhodnotových atributů φ a ψ v matici dat MX1, která se skládá ze všech řádku matice MX, pro které je atribut χ pravdivý. Tedy f1,1,1 je počet řádků matice MX pro které jsou atributy φ, ψ i χ pravdivé; f1,X,1 je počet řádků matice MX pro které jsou atributy φ a χ pravdivé a atribut ψ nabývá hodnotu X, atd.

Devítipolní tabulka 9ft(φ,ψ,MXX) se týká trojhodnotových atributů φ a ψ v matici dat MXX, která se skládá ze všech řádku matice MX, pro které atribut χ nabývá hodnotu X. Tedy f1,1,X je počet řádků matice MX pro které jsou atributy φ a ψ pravdivé a atribut χ nabývá hodnotu X; f1,X,X je počet řádků matice MX pro které je atribut φ pravdivý a atributy ψ a χ nabývají hodnotu X, atd.

Z těchto devítipolních tabulek se vypočítá čtyřpolní tabulka pro verifikaci v závislosti na tom, zda se jedná o zabezpečené doplnění, optimistické doplnění, vynechání neúplné informace nebo ignorování neúplné informace.

Podmíněná pravidla a zabezpečené doplnění

V případě zabezpečeného doplnění je podmíněné asociační pravidlo považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé ve všech možných doplněních matice skutečnými hodnotami. Podrobnosti jsou zde.

Podmíněná pravidla a optimistické doplnění

Při optimistickém doplnění je podmíněné asociační pravidlo považováno za pravdivé v matici dat s neúplnou informací, pokud je pravdivé alespoň v jednom doplnění této matice. Podrobnosti jsou zde.

Podmíněná pravidla a vynechání neúplné informace

Podstatou vynechání neúplné informace je, že se pro verifikaci využije čtyřpolní tabulka vzniklá vynecháním polí, která se týkají chybějící informace. Podrobnosti jsou zde.

Podmíněná pravidla a ignorování neúplné informace

Při zpracování se neúplná informace ignoruje v tom smyslu, že kód chybějící hodnoty X se považuje za speciální kategorii. Tato kategorie zůstává skryta a nelze ji použít při zadání relevantních koeficientů. Podrobnosti jsou zde.