Obsah

Dvojice histogramů a SDCF-výraz

Příklad

V následujícím obrázku jsou uvedeny histogramy
DHodnoceni / POsob(2) ∧ POsobonoci(vyšší, nejvyšší)
pro podmatice Hotel / HStat(ČR) a Hotel / HStat(Německo) matice dat Hotel.

Pro histogram DHodnocení / POsob(2) ∧ POsobonoci(vyšší, nejvyšší) a matici dat Hotel tedy platí:

To lze vyjádřit pomocí SDCF-výrazu
HStat(ČR) × HStat(Německo): [↑↓, ≥157, ≥72] DHodnocení / POsob(2) ∧ POsobonoci(vyšší, nejvyšší),
o kterém prohlásíme, že je pravdivý v matici dat Hotel.

Výraz [↑↓, ≥157, ≥72] je SDCF-kvantifikátor. Ověření, zda daný SDCF-výraz je pravdivý v dané matici dat se provádí na základě SDCF-tabulky.

SDCF-výraz

SDCF-výraz má tvar α×β: ≈A/χ kde

SDCF-výraz je určen pro vyjádření rozdílu mezi histogramy A/α∧χ a A/β∧χ. Pro popis tohoto rozdílu se používá SDCF-tabulka a SDCF-kvantifikátor.

Histogram A/α∧χ na matici dat M je totéž jako histogram A/χ na podmatici M/α a histogram A/β∧χ na
matici dat M je totéž jako histogram A/χ na podmatici M/β. Rozdíl mezi histogramy A/α∧χ a A/β∧χ na
matici dat M můžeme tedy chápat jako rozdíl mezi histogramem A/χ na podmatici M/α a histogramem
A/χ na podmatici M/β.

SDCF-tabulka

SDCF-tabulka udává všechny frekvence potřebné pro ověření pravdivosti SDCF-výrazu α×β:≈A/χ v matici dat M. Značí se SDCF(A,α,β,χ,M). Jedná se o dvojici K-tic celých nezáporných čísel SDCF(A,α,β,χ,M) =
‹ CFα, CFβ › kde CFα = ‹ nα,1,…,nα,K › a CFβ = ‹ nβ,1,…,nβ,K ›.

Předpokládáme, že atribut A má kategorie a1,…,aK. Potom nα,1,…,nα,K jsou frekvence kategorií a1,…,aK v podmatici dat M/α∧χ a nβ,1,…,nβ,K jsou frekvence kategorií a1,…,aK v podmatici dat M/β∧χ.

SDCF-tabulku prezentujeme také ve tvaru dle následujícího obrázku

SDCF-tabulka SDCF(Dhodnocení,
HStat(ČR), HStat(Německo), DHodnoceni / POsob(2)POsobonoci(vyšší, nejvyšší), Hotel)
pro ověření platnosti SDCF-výrazu
HStat(ČR) × HStat(Německo): [↑↓, ≥157, ≥72] DHodnoceni / POsob(2)POsobonoci(vyšší, nejvyšší),
v matici dat Hotel je v následujícím obrázku.

SDCF-kvantifikátor

Symbol ≈ v SDCF-výrazu α×β: ≈A/χ kde se nazývá SDCF-kvantifikátor. Definuje podmínku týkající se dvojice K-tic celých nezáporných čísel Cα a Cβ kde Cα = ‹ cα,1,…,cα,K › a Cβ = ‹ cβ,1,…,cβ,K ›. Podobně jako pro CF-kvantifikátor, chápeme SDCF-kvantifikátor ≈ jako {0,1}-hodnotovou funkci ≈(Cα, Cβ) týkající se K-tic Cα a Cβ. Platí

Příkladem SDCF-kvantifikátoru je výraz [↑↓, ≥157, ≥72] použitý ve výše uvedeném příkladu. Tomuto SDCF-kvantifikátoru odpovídá podmínka P:
cα,1 < cα,2 <…< cα,K-1 < cα,K ∧ cα,1+…+cα,K ≥157 ∧
cβ,1 > cβ,2 > … > cβ,K-1 > cβ,K ∧ cβ,1 +…+ cβ,K ≥72.
Tedy:

SDCF-kvantifikátory implementované v GUHA proceduře SDCF-Miner jsou popsány zde.

SDCF-výraz je pravdivý

Pravdivost SDCF-výrazu α×β: ≈A/χ v matici dat M je definována pomocí SDCF-tabulky
SDCF(A,α,β,χ,M) = ‹ CFα, CFβ takto: