Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod

Důležité pojmy

Vztahy, s nimiž procedury pracují

GUHA procedury

GUHA procedury - společné prvky

Observační kalkuly - relevantní výsledky

Důležité tématické okruhy

lm_guha_te_vyzkum

Výzkum související s metodou GUHA a systémem LISp-Miner

S metodou GUHA je spojen rozsáhlý výzkum dokumentovaný mimo jiné publikacemi počínaje rokem 1966. Cílem této kapitoly je představit tu část výzkumu souvisejícího s metodou GUHA, která je spojena se systémem LISp-Miner. Jedná se o následující výzkumné témata:

Implementace nových GUHA procedur

První GUHA procedurou implementovanou v rámci systému LISp-Miner byla procedura 4ft-Miner. K této proceduře se vztahují zejména články Mining for 4ft rules, An alternative approach to mining association rules, Apriori and GUHA – Comparing two approaches to data mining with association rules.

Dále bylo postupně implementováno osm dalších GUHA procedur, které jsou součástí systému LISp-Miner. Sedm procedur z devíti GUHA procedur je popsáno v této wiki, jejich přehled je zde. Dále se jedná o procedury MCluster-Miner a ETree-Miner.

Celého systému LISp-Miner se týká monografie Dobývání znalostí z databází, LISp-Miner a GUHA a také publikace Academic KDD project LISp-Miner.

Jedné nebo více procedur se týkají publikace Mining for patterns based on contingency tables by KL-Miner - first experience, Action Rules and the GUHA Method: Preliminary Considerations and Results, A New GUHA Procedure for Building Exploration Trees, Nová GUHA-procedura ETree-Miner v systému LISp-Miner, Metoda GUHA a dobývání znalostí z databází, a Data Mining with Histograms – A Case Study.

Aplikace GUHA procedur

Využití doménových znalostí a automatizace

Observační kalkuly jako nástroj pro dobývání znalostí

Observační kalkuly byly definovány jako teoretický základ pro metodu GUHA v knize Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory), která je k dispozici i v internetovém vydání. Jedná se o logické kalkuly jejichž formule odpovídají vztahům v datech které jsou výstupem GUHA procedur. Je k dispozici řada publikací o observačních kalkulech, jsou zahrnuty mezi vybranými publikacemi.

Cílem této stránky je stručně prezentovat důležité publikace, které vznikly v souvislosti s vývojem a aplikacemi systému LISp-Miner. Týkají se následujících témat:

Dedukční pravidla pro GUHA asociační pravidla

Pracujeme s dedukčními pravidly - dvojicemi asociačních pravidel ‹φ≈ψ,φ'≈ψ'›. Dedukční pravidlo ‹φ≈ψ,φ'≈ψ'› je korektní jestliže pro každou matici dat M platí: Je-li φ≈ψ pravdivé v matici dat M, tak potom i φ'≈ψ' je pravdivé v matici dat M.

Důležité je, že GUHA asociační pravidla mají podstatně bohatší syntax než asociační pravidla poskytovaná algoritmem apriori, což má za následek existenci prakticky důležitých dedukčních pravidel. Proto existují prakticky důležitá dedukční pravidla využívaná procedurou 4ft-Miner. Jedná se o dedukční pravidla týkající se implikačních a slabě implikačních kvantifikátorů a symetrických kvantifikátorů, podrobnosti jsou zde.

Základní výsledky o dedukčních pravidlech jsou v monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory). Podstatné rozšíření těchto výsledků je v monografii Observational Calculi and Association Rules.

Mezi publikace o dedukčních pravidlech patří i konferenční příspěvek Logical calculi for knowledge discovery in databases, článek Logic of association rules a kapitola v knize Logical Aspects of the Measures of Interestingness of Association Rules.

V článku Logical Aspects of Dealing with Domain Knowledge in Data Mining with Association Rules je ukázáno, že pro řadu 4ft-kvantifikátorů implementovaných v proceduře 4ft-Miner existuje pouze málo nebo žádná prakticky užitečná dedukční pravidla.

To je důvodem definice a studia expertních dedukčních pravidel. Expertní dedukční pravidla jsou definována jako dedukční pravidla podporovaná nezpochybnitelnými fakty ohledně doménové oblasti, ale nekorektní z hlediska matematické logiky. Dosavadní výsledky jsou v článcích Expert deduction rules in data mining with association rules: a case study a Data Mining with Histograms and Domain Knowledge – Case Studies and Considerations. Příklad využití expertních dedukčních pravidel je zde.

Zpracování neúplné informace

Zpracování neúplné informace je důležitý problém řešený při aplikacích metod data mining. V monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory) byl vyvinut nový přístup k této problematice - zabezpečené (pesimistické) doplnění neúplné informace. Nové výsledky k tomuto přístupu jsou publikovány v monografii Observational Calculi and Association Rules.

Některé výsledky o zpracování neúplné informace jsou i v článku Logic of association rules. Výsledky o zpracování neúplné informace jsou využity i v proceduře 4ft-Miner, podrobnosti jsou zde.

Třídy 4ft-kvantifikátorů

Výsledky ohledně dedukčních pravidel i zpracování neúplné informace se většinou neváží pouze k jednotlivým 4ft-kvantifikátorům, ale k celým třídám 4ft-kvantifikátorů. Několik tříd 4ft-kvantifikátorů je definováno a studováno v monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory). Další třídy 4ft-kvantifikátorů a jejich vlastnosti jsou prezentovány v monografii Observational Calculi and Association Rules.

Některé z těchto výsledků jsou i v článku Classes of four-fold table quantifiers.

Vyjádřitelnost 4ft-kvantifikátorů v klasickém predikátovém počtu

Zajímavým teoretickým problémem je možnost vyjádřit pravdivost GUHA asociačního pravidla pomocí prostředků predikátového počtu s rovností. Základní výsledky jsou v monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory), další výsledky jsou v monografii Observational Calculi and Association Rules.

Relevantní výsledky jsou i v článcích Definability of association rules and tables of critical frequencies a Definability association rules in predicate calculus.

Vícesortové observační kalkuly

Jedním ze směrů výzkumu spojených s metodou GUHA a se systémem LISp-Miner souvisí s využitím více matic dat při aplikaci GUHA procedur. Připadá v úvahu i definice a implementace GUHA procedury která automaticky generuje vztahy týkající se dvou nebo i více matic dat. Vhodným teoretickým zázemím jsou vícesortové observační kalkuly.

Výsledky týkající se vícesortových observačních kalkulů jsou v publikacích Interesting association rules and multi-relational association rules a Many sorted observational calculi for multi-relational data mining.

Generování umělých dat

Umělá data o nichž víme, jaké vztahy v nich platí jsou důležitým nástrojem pro testování nových algoritmů a pro přípravu výuky. Proto byl v rámci systému LISp-Miner vyvinut modul ReverseMiner.

Tomuto tématu je věnován i článek Příprava umělých dat pro výuku a testování pomocí evolučního algoritmu.

Prezentace výsledků v přirozeném jazyce

Zajímavým tématem je i prezentace výsledků procedury 4ft-Miner v přirozeném jazyce. Výsledky v tomto směru jsou prezentovány v publikacích Converting Association Rules into Natural Language — an Attempt a Reporting data mining results in a natural language.

lm_guha_te_vyzkum.txt · Poslední úprava: 2019/10/10 18:25 (upraveno mimo DokuWiki)