Uživatelské nástroje

Nástroje pro tento web


Postranní lišta

Úvod


Data Hotel

Další data


Typové úlohy




Všechny řešené příklady


Řešené příklady s detaily na wiki

Histogramy na wiki

Asociační pravidla na wiki

Kontingenční tabulky na wiki

Dvojice asociačních pravidel


lm_guha_di

Metoda GUHA, LISp-Miner a datové inženýrství

GUHA je původní česká metoda explorační analýzy dat. Jejím cílem je nabízet vše zajímavé co platí v daných datech. Metoda je realizována pomocí GUHA procedur. Vstupem GUHA procedury jsou analyzovaná data a několik parametrů zadávajících rozsáhlou množinu relevantních vztahů. Výstupem jsou všechny prosté vztahy. Vztah je prostý, pokud je pravdivý v analyzovaných datech a zároveň nejkratší možný. První publikací o metodě GUHA v angličtině je článek The GUHA method of automatic hypotheses determination z roku 1966.

LISp-Miner je akademický softwarový systém pro výzkum a výuku dobývání znalostí z databází vyvíjený na Fakultě informatiky a statistiky Vysoké školy ekonomické v Praze. Jádrem systému je devět GUHA procedur. Systém poskytuje i bohaté prostředky pro transformace analyzovaných dat, interpretaci výsledků procedur, využití doménových znalostí a automatizaci práce s GUHA procedurami.

Datovým inženýrstvím zde rozumíme disciplínu informatiky zabývající se zpracováním dat s cílem porozumět procesům, které data generují. Jsme si ale vědomi, že pojem datové inženýrství se stále vyvíjí, zejména ve vazbě na pojem data science. Cílem této webové prezentace je představit metodu GUHA a systém LISp-Miner jako prostředky pro analýzu dat umožňující přispět k porozumění procesům, které generují analyzovaná data.

Jádrem této prezentace je popis typových analytických úloh, které je možno řešit pomocí GUHA procedur systému LISp-Miner. GUHA procedury systému LISp-Miner analyzují data ve formě matic dat. Zde popisované analytické úlohy se týkají histogramů, asociačních pravidel, kontingenčních tabulek, dvojic histogramů, dvojic asociačních pravidel, dvojic kontingenčních tabulek a akčních pravidel, se kterými pracují GUHA procedury systému LISp-Miner. Typové úlohy jsou popsány pomocí dat Hotel. Další informace o těchto datech jsou uvedeny zde. Je třeba zdůraznit, že pro porozumění této prezentaci je vhodné se seznámit s prezentací systému LISp-Miner na adrese https://lispminer.vse.cz/wiki/.

Nejsou zde uvedeny typové úlohy související s procedurami MCluster-Miner a ETree-Miner, možnosti těchto procedur jsou uvedeny u popisu modulů MCluster-Miner a ETree-Miner systému LISp-Miner.

Prezentované typové úlohy nejsou jediné, které lze řešit pomocí GUHA procedur systému LISp-Miner. Předpokládá se, že další typové úlohy budou postupně doplňovány.

Krom typových úloh jsou také uvedeny podrobné popisy modulů realizujících jednotlivé GUHA procedury systému LISp-Miner. Jedná se o moduly pro tyto procedury:

  • CF-Miner pro hledání okolností za kterých histogramy daných atributů splňují zadané podmínky
  • 4ft-Miner pro hledání zajímavých asociačních pravidel
  • KL-Miner pro hledání okolností za kterých kontingenční tabulky daných dvojic atributů splňují zadané podmínky
  • SDCF-Miner pro hledání zajímavých dvojic histogramů
  • SD4ft-Miner pro hledání zajímavých dvojic asociačních pravidel
  • SDKL-Miner pro hledání zajímavých dvojic kontingenčních tabulek
  • Ac4ft-Miner pro hledání zajímavých akčních pravidel

Tato prezentace podstatným způsobem využívá prezentaci Systém LISp-Miner.

lm_guha_di.txt · Poslední úprava: 2018/08/23 22:53 (upraveno mimo DokuWiki)