V následujícím obrázku jsou uvedeny histogramy
DHodnoceni / POsob(2) ∧ POsobonoci(vyšší, nejvyšší)
pro podmatice
Hotel / HStat(ČR) a Hotel / HStat(Německo) matice dat
Hotel.
Pro histogram DHodnocení / POsob(2) ∧ POsobonoci(vyšší, nejvyšší) a matici dat Hotel tedy platí:
To lze vyjádřit pomocí SDCF-výrazu
HStat(ČR) × HStat(Německo): [↑↓, ≥157, ≥72] DHodnocení / POsob(2) ∧ POsobonoci(vyšší, nejvyšší),
o kterém prohlásíme, že je pravdivý v matici dat Hotel.
Výraz [↑↓, ≥157, ≥72] je SDCF-kvantifikátor. Ověření, zda daný SDCF-výraz je pravdivý v dané matici dat se provádí na základě SDCF-tabulky.
SDCF-výraz má tvar α×β: ≈A/χ kde
SDCF-výraz je určen pro vyjádření rozdílu mezi histogramy A/α∧χ a A/β∧χ. Pro popis tohoto rozdílu se používá SDCF-tabulka a SDCF-kvantifikátor.
Histogram A/α∧χ na matici dat M je totéž jako histogram A/χ na podmatici M/α
a histogram A/β∧χ na
matici dat M je totéž jako histogram A/χ na podmatici M/β.
Rozdíl mezi histogramy A/α∧χ a A/β∧χ na
matici dat M můžeme tedy chápat jako rozdíl
mezi histogramem A/χ na podmatici M/α a histogramem
A/χ na podmatici M/β.
SDCF-tabulka udává všechny frekvence potřebné pro ověření pravdivosti SDCF-výrazu α×β:≈A/χ v matici dat M.
Značí se SDCF(A,α,β,χ,M).
Jedná se o dvojici K-tic celých nezáporných čísel SDCF(A,α,β,χ,M) =
‹ CFα, CFβ › kde
CFα = ‹ nα,1,…,nα,K › a
CFβ = ‹ nβ,1,…,nβ,K ›.
Předpokládáme, že atribut A má kategorie a1,…,aK. Potom nα,1,…,nα,K jsou frekvence kategorií a1,…,aK v podmatici dat M/α∧χ a nβ,1,…,nβ,K jsou frekvence kategorií a1,…,aK v podmatici dat M/β∧χ.
SDCF-tabulku prezentujeme také ve tvaru dle následujícího obrázku
SDCF-tabulka SDCF(Dhodnocení,
HStat(ČR), HStat(Německo),
DHodnoceni / POsob(2) ∧ POsobonoci(vyšší, nejvyšší), Hotel)
pro ověření platnosti
SDCF-výrazu
HStat(ČR) × HStat(Německo): [↑↓, ≥157, ≥72]
DHodnoceni / POsob(2) ∧ POsobonoci(vyšší, nejvyšší),
v matici dat Hotel je v následujícím obrázku.
Symbol ≈ v SDCF-výrazu α×β: ≈A/χ kde se nazývá SDCF-kvantifikátor. Definuje podmínku týkající se dvojice K-tic celých nezáporných čísel Cα a Cβ kde Cα = ‹ cα,1,…,cα,K › a Cβ = ‹ cβ,1,…,cβ,K ›. Podobně jako pro CF-kvantifikátor, chápeme SDCF-kvantifikátor ≈ jako {0,1}-hodnotovou funkci ≈(Cα, Cβ) týkající se K-tic Cα a Cβ. Platí
Příkladem SDCF-kvantifikátoru je výraz [↑↓, ≥157, ≥72] použitý ve výše uvedeném příkladu.
Tomuto SDCF-kvantifikátoru odpovídá podmínka P:
cα,1 < cα,2 <…< cα,K-1 < cα,K ∧
cα,1+…+cα,K ≥157 ∧
cβ,1 > cβ,2 > … > cβ,K-1 > cβ,K ∧
cβ,1 +…+ cβ,K ≥72.
Tedy:
SDCF-kvantifikátory implementované v GUHA proceduře SDCF-Miner jsou popsány zde.
Pravdivost SDCF-výrazu α×β: ≈A/χ v matici dat M je definována pomocí SDCF-tabulky
SDCF(A,α,β,χ,M) = ‹ CFα, CFβ takto: