Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod

Důležité pojmy

Vztahy, s nimiž procedury pracují

GUHA procedury

GUHA procedury - společné prvky

Observační kalkuly - relevantní výsledky

Důležité tématické okruhy

lm_guha_te_histogram_2

Dvojice histogramů a SDCF-výraz

Příklad

V následujícím obrázku jsou uvedeny histogramy
DHodnoceni / POsob(2) ∧ POsobonoci(vyšší, nejvyšší)
pro podmatice Hotel / HStat(ČR) a Hotel / HStat(Německo) matice dat Hotel.

Pro histogram DHodnocení / POsob(2) ∧ POsobonoci(vyšší, nejvyšší) a matici dat Hotel tedy platí:

  • pro podmatici Hotel / HStat(ČR) týkající se 157 hostů z ČR tento histogram roste
  • pro podmatici dat Hotel / HStat(Německo) týkající se 72 hostů z Německa tento histogram klesá.

To lze vyjádřit pomocí SDCF-výrazu
HStat(ČR) × HStat(Německo): [↑↓, ≥157, ≥72] DHodnocení / POsob(2) ∧ POsobonoci(vyšší, nejvyšší),
o kterém prohlásíme, že je pravdivý v matici dat Hotel.

Výraz [↑↓, ≥157, ≥72] je SDCF-kvantifikátor. Ověření, zda daný SDCF-výraz je pravdivý v dané matici dat se provádí na základě SDCF-tabulky.

SDCF-výraz

SDCF-výraz má tvar α×β: ≈A/χ kde

SDCF-výraz je určen pro vyjádření rozdílu mezi histogramy A/α∧χ a A/β∧χ. Pro popis tohoto rozdílu se používá SDCF-tabulka a SDCF-kvantifikátor.

Histogram A/α∧χ na matici dat M je totéž jako histogram A/χ na podmatici M/α a histogram A/β∧χ na
matici dat M je totéž jako histogram A/χ na podmatici M/β. Rozdíl mezi histogramy A/α∧χ a A/β∧χ na
matici dat M můžeme tedy chápat jako rozdíl mezi histogramem A/χ na podmatici M/α a histogramem
A/χ na podmatici M/β.

SDCF-tabulka

SDCF-tabulka udává všechny frekvence potřebné pro ověření pravdivosti SDCF-výrazu α×β:≈A/χ v matici dat M. Značí se SDCF(A,α,β,χ,M). Jedná se o dvojici K-tic celých nezáporných čísel SDCF(A,α,β,χ,M) =
‹ CFα, CFβ › kde CFα = ‹ nα,1,…,nα,K › a CFβ = ‹ nβ,1,…,nβ,K ›.

Předpokládáme, že atribut A má kategorie a1,…,aK. Potom nα,1,…,nα,K jsou frekvence kategorií a1,…,aK v podmatici dat M/α∧χ a nβ,1,…,nβ,K jsou frekvence kategorií a1,…,aK v podmatici dat M/β∧χ.

SDCF-tabulku prezentujeme také ve tvaru dle následujícího obrázku

SDCF-tabulka SDCF(Dhodnocení,
HStat(ČR), HStat(Německo), DHodnoceni / POsob(2)POsobonoci(vyšší, nejvyšší), Hotel)
pro ověření platnosti SDCF-výrazu
HStat(ČR) × HStat(Německo): [↑↓, ≥157, ≥72] DHodnoceni / POsob(2)POsobonoci(vyšší, nejvyšší),
v matici dat Hotel je v následujícím obrázku.

SDCF-kvantifikátor

Symbol ≈ v SDCF-výrazu α×β: ≈A/χ kde se nazývá SDCF-kvantifikátor. Definuje podmínku týkající se dvojice K-tic celých nezáporných čísel Cα a Cβ kde Cα = ‹ cα,1,…,cα,K › a Cβ = ‹ cβ,1,…,cβ,K ›. Podobně jako pro CF-kvantifikátor, chápeme SDCF-kvantifikátor ≈ jako {0,1}-hodnotovou funkci ≈(Cα, Cβ) týkající se K-tic Cα a Cβ. Platí

  • ≈( Cα, Cβ) = 1 pokud je podmínka daná SDCF-kvantifikátorem splněna pro K-tice Cα a Cβ
  • ≈( Cα, Cβ) = 0 pokud podmínka daná SDCF-kvantifikátorem pro K-tice Cα a Cβ splněna není.

Příkladem SDCF-kvantifikátoru je výraz [↑↓, ≥157, ≥72] použitý ve výše uvedeném příkladu. Tomuto SDCF-kvantifikátoru odpovídá podmínka P:
cα,1 < cα,2 <…< cα,K-1 < cα,K ∧ cα,1+…+cα,K ≥157 ∧
cβ,1 > cβ,2 > … > cβ,K-1 > cβ,K ∧ cβ,1 +…+ cβ,K ≥72.
Tedy:

  • [↑↓, ≥157, ≥72](Cα, Cβ) = 1 pokud je podmínka P splněna
  • [↑↓, ≥157, ≥72](Cα, Cβ) = 0 pokud podmínka P splněna není.

SDCF-kvantifikátory implementované v GUHA proceduře SDCF-Miner jsou popsány zde.

SDCF-výraz je pravdivý

Pravdivost SDCF-výrazu α×β: ≈A/χ v matici dat M je definována pomocí SDCF-tabulky
SDCF(A,α,β,χ,M) = ‹ CFα, CFβ takto:

  • α×β: ≈A/χ je pravdivý v matici dat M pokud ≈(CFα, CFβ) = 1, formálně zapisujeme
    Val(α×β: ≈A/χ, M) = 1
  • α×β: ≈A/χ je nepravdivý v matici dat M pokud ≈(CFα, CFβ) = 0, formálně zapisujeme
    Val(α×β: ≈A/χ, M) = 0.
lm_guha_te_histogram_2.txt · Poslední úprava: 2020/03/13 14:35 (upraveno mimo DokuWiki)