====== Metoda GUHA, LISp-Miner a datové inženýrství ====== **GUHA** je původní česká metoda explorační analýzy dat. Jejím cílem je nabízet vše zajímavé co platí v daných datech. Metoda je realizována pomocí GUHA procedur. Vstupem GUHA procedury jsou analyzovaná data a několik parametrů zadávajících rozsáhlou množinu relevantních vztahů. Výstupem jsou všechny prosté vztahy. Vztah je prostý, pokud je pravdivý v analyzovaných datech a zároveň nejkratší možný. První publikací o metodě GUHA v angličtině je článek [[https://link.springer.com/article/10.1007/BF02345483|The GUHA method of automatic hypotheses determination]] z roku 1966. [[https://lispminer.vse.cz/wiki/|LISp-Miner]] je akademický softwarový systém pro výzkum a výuku dobývání znalostí z databází vyvíjený na [[https://fis.vse.cz/|Fakultě informatiky a statistiky Vysoké školy ekonomické v Praze]]. Jádrem systému je devět GUHA procedur. Systém poskytuje i bohaté prostředky pro transformace analyzovaných dat, interpretaci výsledků procedur, využití doménových znalostí a automatizaci práce s GUHA procedurami. **Datovým inženýrstvím** zde rozumíme disciplínu informatiky zabývající se zpracováním dat s cílem porozumět procesům, které data generují. Jsme si ale vědomi, že pojem //datové inženýrství// se stále vyvíjí, zejména ve vazbě na pojem //data science//. Cílem této webové prezentace je představit metodu GUHA a systém LISp-Miner jako prostředky pro analýzu dat umožňující přispět k porozumění procesům, které generují analyzovaná data. Jádrem této prezentace je popis typových analytických úloh, které je možno řešit pomocí GUHA procedur systému LISp-Miner. GUHA procedury systému LISp-Miner analyzují data ve formě [[lm_guha_di_matice|matic dat]]. Zde popisované analytické úlohy se týkají [[lm_guha_di_histogram|histogramů]], [[lm_guha_di_pravidlo|asociačních pravidel]], [[lm_guha_di_tabulka|kontingenčních tabulek]], [[lm_guha_di_histogram_2|dvojic histogramů]], [[lm_guha_di_pravidlo_2|dvojic asociačních pravidel]], [[lm_guha_di_tabulka_2|dvojic kontingenčních tabulek]] a [[lm_guha_di_ac_pravidlo|akčních pravidel]], se kterými pracují GUHA procedury systému LISp-Miner. Typové úlohy jsou popsány pomocí dat [[https://lispminer.vse.cz/wiki/doku.php?id=lmdemo:hotel2015:start|Hotel]]. Další informace o těchto datech jsou uvedeny [[lm_guha_di_hotel|zde]]. Je třeba zdůraznit, že pro porozumění této prezentaci je vhodné se seznámit s prezentací systému LISp-Miner na adrese [[https://lispminer.vse.cz/wiki/|https://lispminer.vse.cz/wiki/]]. Nejsou zde uvedeny typové úlohy související s procedurami [[https://lispminer.vse.cz/wiki/doku.php?id=mmc:proc:start |MCluster-Miner]] a [[https://lispminer.vse.cz/wiki/doku.php?id=met:proc:start |ETree-Miner]], možnosti těchto procedur jsou uvedeny u popisu modulů [[https://lispminer.vse.cz/wiki/doku.php?id=mmc:start|MCluster-Miner]] a [[https://lispminer.vse.cz/wiki/doku.php?id=met:start|ETree-Miner]] systému LISp-Miner. Prezentované typové úlohy nejsou jediné, které lze řešit pomocí GUHA procedur systému LISp-Miner. Předpokládá se, že další typové úlohy budou postupně doplňovány. Krom typových úloh jsou také uvedeny podrobné popisy modulů realizujících jednotlivé GUHA procedury systému LISp-Miner. Jedná se o moduly pro tyto procedury: * CF-Miner pro hledání okolností za kterých histogramy daných atributů splňují zadané podmínky * 4ft-Miner pro hledání zajímavých asociačních pravidel * KL-Miner pro hledání okolností za kterých kontingenční tabulky daných dvojic atributů splňují zadané podmínky * SDCF-Miner pro hledání zajímavých dvojic histogramů * SD4ft-Miner pro hledání zajímavých dvojic asociačních pravidel * SDKL-Miner pro hledání zajímavých dvojic kontingenčních tabulek * Ac4ft-Miner pro hledání zajímavých akčních pravidel **Tato prezentace podstatným způsobem využívá prezentaci [[https://lispminer.vse.cz/wiki/|Systém LISp-Miner]]. **