Obsah

Výzkum související s metodou GUHA a systémem LISp-Miner

S metodou GUHA je spojen rozsáhlý výzkum dokumentovaný mimo jiné publikacemi počínaje rokem 1966. Cílem této kapitoly je představit tu část výzkumu souvisejícího s metodou GUHA, která je spojena se systémem LISp-Miner. Jedná se o následující výzkumné témata:

Implementace nových GUHA procedur

První GUHA procedurou implementovanou v rámci systému LISp-Miner byla procedura 4ft-Miner. K této proceduře se vztahují zejména články Mining for 4ft rules, An alternative approach to mining association rules, Apriori and GUHA – Comparing two approaches to data mining with association rules.

Dále bylo postupně implementováno osm dalších GUHA procedur, které jsou součástí systému LISp-Miner. Sedm procedur z devíti GUHA procedur je popsáno v této wiki, jejich přehled je zde. Dále se jedná o procedury MCluster-Miner a ETree-Miner.

Celého systému LISp-Miner se týká monografie Dobývání znalostí z databází, LISp-Miner a GUHA a také publikace Academic KDD project LISp-Miner.

Jedné nebo více procedur se týkají publikace Mining for patterns based on contingency tables by KL-Miner - first experience, Action Rules and the GUHA Method: Preliminary Considerations and Results, A New GUHA Procedure for Building Exploration Trees, Nová GUHA-procedura ETree-Miner v systému LISp-Miner, Metoda GUHA a dobývání znalostí z databází, a Data Mining with Histograms – A Case Study.

Aplikace GUHA procedur

Systém LISp-Miner byl vícekrát aplikován na reálná data. Ukázky aplikací jsou ve většině publikací uvedených výše, v následujícím tématu využití doménových znalostí a automatizace i ve zveřejněných příkladech.

Další příklady aplikací jsou v publikacích Distributed Data-Mining in the LISp-Miner System Using Techila Grid, Bayesian analysis of GUHA hypotheses, Using the LISp-Miner System for Credit Risk Assessment, Practical Aspects of Data Mining Using LISp-Miner a Using GUHA Data Mining Method in Analyzing Road Traffic Accidents Occurred in the Years 2004-2008 in Finland.

S aplikacemi souvisí i publikace Semantic web presentation of analytical reports from data mining – Preliminary considerations a LAREDAM – Considerations on System of Local Analytical Reports from Data Mining.

Využití doménových znalostí a automatizace

Využití doménových znalostí a automatizace procesu data mining jsou v kontextu metody GUHA a systému LISp-Miner těsně provázaná témata. Uvádíme související publikace v chronologickém pořadí: Dealing with Background Knowledge in the SEWEBAR Project, Applying Domain Knowledge in Association Rules Mining Process – First Experience, EverMiner: consideration on knowledge drive permanent data mining process, Domain Knowledge and Data Mining with Association Rules – A Logical Point of View, Learning Association Rules from Data through Domain Knowledge and Automation, Formal Framework for Data Mining with Association Rules and Domain Knowledge – Overview of an Approach, Data Mining with Trusted Knowledge, Ontologies in Support of Data Mining.

Důležitou roli v této souvislosti hraje skriptovací jazyk LMCL - LISp-Miner Control Language, viz též článek LISp-Miner Control Language description of scripting language implementation.

K tomuto tématu je třeba zařadit i články týkající se expertních dedukčních pravidel Data Mining with Histograms and Domain Knowledge – Case Studies and Considerations a Expert deduction rules in data mining with association rules: a case study uvedené v části Dedukční pravidla pro GUHA asociační pravidla.

Observační kalkuly jako nástroj pro dobývání znalostí

Observační kalkuly byly definovány jako teoretický základ pro metodu GUHA v knize Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory), která je k dispozici i v internetovém vydání. Jedná se o logické kalkuly jejichž formule odpovídají vztahům v datech které jsou výstupem GUHA procedur. Je k dispozici řada publikací o observačních kalkulech, jsou zahrnuty mezi vybranými publikacemi.

Cílem této stránky je stručně prezentovat důležité publikace, které vznikly v souvislosti s vývojem a aplikacemi systému LISp-Miner. Týkají se následujících témat:

Dedukční pravidla pro GUHA asociační pravidla

Pracujeme s dedukčními pravidly - dvojicemi asociačních pravidel ‹φ≈ψ,φ'≈ψ'›. Dedukční pravidlo ‹φ≈ψ,φ'≈ψ'› je korektní jestliže pro každou matici dat M platí: Je-li φ≈ψ pravdivé v matici dat M, tak potom i φ'≈ψ' je pravdivé v matici dat M.

Důležité je, že GUHA asociační pravidla mají podstatně bohatší syntax než asociační pravidla poskytovaná algoritmem apriori, což má za následek existenci prakticky důležitých dedukčních pravidel. Proto existují prakticky důležitá dedukční pravidla využívaná procedurou 4ft-Miner. Jedná se o dedukční pravidla týkající se implikačních a slabě implikačních kvantifikátorů a symetrických kvantifikátorů, podrobnosti jsou zde.

Základní výsledky o dedukčních pravidlech jsou v monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory). Podstatné rozšíření těchto výsledků je v monografii Observational Calculi and Association Rules.

Mezi publikace o dedukčních pravidlech patří i konferenční příspěvek Logical calculi for knowledge discovery in databases, článek Logic of association rules a kapitola v knize Logical Aspects of the Measures of Interestingness of Association Rules.

V článku Logical Aspects of Dealing with Domain Knowledge in Data Mining with Association Rules je ukázáno, že pro řadu 4ft-kvantifikátorů implementovaných v proceduře 4ft-Miner existuje pouze málo nebo žádná prakticky užitečná dedukční pravidla.

To je důvodem definice a studia expertních dedukčních pravidel. Expertní dedukční pravidla jsou definována jako dedukční pravidla podporovaná nezpochybnitelnými fakty ohledně doménové oblasti, ale nekorektní z hlediska matematické logiky. Dosavadní výsledky jsou v článcích Expert deduction rules in data mining with association rules: a case study a Data Mining with Histograms and Domain Knowledge – Case Studies and Considerations. Příklad využití expertních dedukčních pravidel je zde.

Zpracování neúplné informace

Zpracování neúplné informace je důležitý problém řešený při aplikacích metod data mining. V monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory) byl vyvinut nový přístup k této problematice - zabezpečené (pesimistické) doplnění neúplné informace. Nové výsledky k tomuto přístupu jsou publikovány v monografii Observational Calculi and Association Rules.

Některé výsledky o zpracování neúplné informace jsou i v článku Logic of association rules. Výsledky o zpracování neúplné informace jsou využity i v proceduře 4ft-Miner, podrobnosti jsou zde.

Třídy 4ft-kvantifikátorů

Výsledky ohledně dedukčních pravidel i zpracování neúplné informace se většinou neváží pouze k jednotlivým 4ft-kvantifikátorům, ale k celým třídám 4ft-kvantifikátorů. Několik tříd 4ft-kvantifikátorů je definováno a studováno v monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory). Další třídy 4ft-kvantifikátorů a jejich vlastnosti jsou prezentovány v monografii Observational Calculi and Association Rules.

Některé z těchto výsledků jsou i v článku Classes of four-fold table quantifiers.

Vyjádřitelnost 4ft-kvantifikátorů v klasickém predikátovém počtu

Zajímavým teoretickým problémem je možnost vyjádřit pravdivost GUHA asociačního pravidla pomocí prostředků predikátového počtu s rovností. Základní výsledky jsou v monografii Mechanizing Hypothesis Formation (Mathematical Foundations for a General Theory), další výsledky jsou v monografii Observational Calculi and Association Rules.

Relevantní výsledky jsou i v článcích Definability of association rules and tables of critical frequencies a Definability association rules in predicate calculus.

Vícesortové observační kalkuly

Jedním ze směrů výzkumu spojených s metodou GUHA a se systémem LISp-Miner souvisí s využitím více matic dat při aplikaci GUHA procedur. Připadá v úvahu i definice a implementace GUHA procedury která automaticky generuje vztahy týkající se dvou nebo i více matic dat. Vhodným teoretickým zázemím jsou vícesortové observační kalkuly.

Výsledky týkající se vícesortových observačních kalkulů jsou v publikacích Interesting association rules and multi-relational association rules a Many sorted observational calculi for multi-relational data mining.

Generování umělých dat

Umělá data o nichž víme, jaké vztahy v nich platí jsou důležitým nástrojem pro testování nových algoritmů a pro přípravu výuky. Proto byl v rámci systému LISp-Miner vyvinut modul ReverseMiner.

Tomuto tématu je věnován i článek Příprava umělých dat pro výuku a testování pomocí evolučního algoritmu.

Prezentace výsledků v přirozeném jazyce

Zajímavým tématem je i prezentace výsledků procedury 4ft-Miner v přirozeném jazyce. Výsledky v tomto směru jsou prezentovány v publikacích Converting Association Rules into Natural Language — an Attempt a Reporting data mining results in a natural language.