Uživatelské nástroje

Nástroje pro tento web


lmprepro:start

Předzpracování dat

Předzpracování dat je třetí fází procesu DZD podle metodiky CRISP-DM.

Ve fázi předzpracování se snažíme data co nejlépe připravit pro následné použití zvolených technik DZD. Každá z technik vyžaduje trochu jiný způsob předzpracování a obvykle je třeba opakovaně zkoušet různé způsoby předzpracování.

Mezi funkce předzpracování dat patří integrace dat z různých zdrojů, selekce dat, výpočet odvozených hodnot, identifikace chybějících hodnot a zejména pak různé způsoby diskretizace a seskupování hodnot. K předzpracování dat nejčastěji použijeme modul LM Workspace, ale předzpracování je možné i automatizovat za použití skriptovacího jazyka LMCL a modulu LM Exec.

Předzpracování dat v systému LISp-Miner zahrnuje typické kroky fáze Předzpracování dat a vychází také z potřeb implementovaných analytických procedur, zejména z principu, že GUHA-procedury pracují pouze s diskretními hodnotami.

Abychom mohli pracovat s hodnotami uloženými v některém sloupci, musíme nad tímto sloupcem nejprve vytvořit (vícekategoriální) atribut a jeho kategorie. Jedna kategorie odpovídá jedné nebo více hodnotám ve sloupci. Kategorie nemusí být vytvořeny pro všechny hodnoty. Kategorizací tak řešíme dva základní kroky předzpracování dat – výběr sledovaných hodnot a jejich seskupování. Pomocí kategorií typu interval diskretizujeme spojité hodnoty do diskrétních intervalů. V případě, že chceme ponechat hodnoty v podobě, jak jsou uloženy v databázovém sloupci, využijeme funkci automatického vytvoření kategorií jako výčet.

Základní funkce pro předzpracování dat nalezneme v modulu LM Workspace v menu Preprocessing. Záložky patřící do fáze Předzpracování dat se budou objevovat ve stromu otevřených záložek po levé straně pracovní plochy ve větvi B. Data Preprocessing. Při propojování dat z více tabulek a při vytváření odvozených sloupců se budeme vracet do větve A. Data Introduction.

Výsledkem fáze Předzpracování dat je datová matice.

Propojení dat z více tabulek

U větších analýz budou analyzovaná data obvykle uložena ve více tabulkách. I u menších analýz a v případě, že k analýze dostaneme pouze jednu datovou matici, je velmi důležité dohledat další (externí) data, která k analyzovaným připojíme. Tím zvýšíme pravděpodobnost odhalení skutečně zajímavých a zatím neodhalených vztahů. Typickým příkladem externě připojovaných dat jsou údaje o počasí.

Před vlastním propojením musíme zadat relace, pomocí kterých se mají tabulky spojovat. Následně vytvoříme dynamický databázový pohled, který pomocí relací propojí více tabulek do jedné. S nově vzniklým dynamickým pohledem můžeme pracovat obvyklým způsobem, jak s kteroukoliv jinou databázovou tabulkou.

Volitelně je možné propojování více tabulek kombinovat i s omezením rozsahu dat.

Více viz: Zadání vztahů mezi tabulkami
Více viz: Vytvoření dynamického databázového pohledu

Praktická ukázka: Demo Hotel: Propojení tabulek

Omezení rozsahu dat

První možnost pro omezení rozsahu dat je již při importu dat z textového souboru.

Chceme-li omezit počet analyzovaných záznamů až dodatečně (např. variantně podle nějakého kritéria), vytvoříme databázový pohled. Ten bude založen pouze na původní databázové tabulce a zároveň omezíme počet řádků buď absolutně (např. podle hodnot ID), nebo podle nějakého kritéria (např. pouze rok 2013).

S nově vzniklou datovou maticí můžeme pracovat obvyklým způsobem. Následně je možné přenést již vytvořené definice atributů a jejich kategorií z původní tabulky i do právě vytvořeného databázového pohledu.

Volitelně je možné omezení rozsahu dat kombinovat i s propojováním dat z více tabulek.

Výpočet odvozených hodnot

Kromě přidání externích dat zvýšíme šance nalezení zajímavých výsledků (nebo jejich lepší interpretace) i výpočtem nějakých odvozených hodnot.

Jde o trochu jiný pohled na data. Typickým příkladem je výpočet dne v týdnu z datumu, výpočet jednotkových cen z ceny celkové a prodaného množství, převod do jiné měny atp. Přestože výpočtem odvozených hodnot do dat nic nepřidáváme, umožňuje jiný úhel pohledu zjistit vztahy, které nejsou v původních datech na první pohled patrné.

Více viz: Výpočet odvozených hodnot

Praktická ukázka: Demo Hotel: Výpočet odvozených hodnot

Sloupce založené na výsledcích úloh

Speciálním typem odvozených hodnot jsou sloupce založené na nalezených hypotézách ve výsledcích dříve vyřešených úloh. „Předzpracováním“ je v tomto případě tak kompletní vyřešení analytické úlohy.

I to lze však chápat jako další pohled na analyzovaná data. Jde však o pokročilou funkci, která je zde zmiňována kvůli úplnosti výčtu možných způsobu předzpracování dat.

Atribut a jeho kategorie

V terminologii LISp-Mineru je (vícekategoriální) atribut předzpracovaným pohledem na data. Pro definici atributu a jeho kategorií používáme záložku s detailem atributu.

Atribut slouží pro kategorizaci dat – diskretizaci spojitých hodnot nebo pro seskupování více znaků u nominálních hodnot do kategorií. Existuje několik možností automatického vytvoření kategorií, ale i funkce pro jejich ruční editaci.

Nad jedním databázovým sloupcem můžeme vytvořit celou řadu atributů, každý s odlišným způsobem kategorizace. Pro ulehčení práce je možné místo vytváření atributu od nuly klonovat nejvíce podobný již vytvořený atribut a následně provést drobně změny v definici. Speciální funkce jsou k dispozici pro dichotomizaci (binarizaci) atributu.

Více viz: Záložka s detailem atributu
Více viz: Vytvoření nového atributu
Více viz: Automatického vytvoření kategorií
Více viz: Ruční editaci kategorií

Praktická ukázka: Demo Hotel: Vytvoření atributů a jejich kategorií

Skupiny atributů

Protože atributů bývá při analýze vytvořeno velké množství, přiřazujeme je do skupin a podskupin na záložce se stromem skupin a do nich patřících atributů.

Vhodné rozdělení atributů do skupin je jedním z typů doménových znalostí. Používá se zejména pro systematické vytváření analytických otázek, kdy proti sobě stavíme atributy (např. jako předpoklad a závěr) postupně ze všech skupin. Dobře rozmyšlené rozdělení atributů do skupin výrazně pomůže k dosažení zajímavých výsledků analýzy, zejména při formulaci analytických otázek.

Více viz: Záložka se stromem skupin a do nich patřících atributů

Praktická ukázka: Demo Hotel: Vytvoření skupin atributů

Datová matice

Datová matice je výsledkem fáze předzpracování. Ve sloupcích obsahuje všechny vytvořené kategoriální atributy a v řádcích záznamy. V průsečíku řádku a sloupce je kategorie, do které patří hodnota v daném řádku a sloupci (nad kterými byl vytvořen atributu).

Datovou matici zobrazíme tlačítkem Show Matrix na záložce se stromem skupin a do nich patřících atributů. Datovou lze i exportovat.

Vhodné pojmenování atributů a kategorií

S postupem analýzy budou přibývat atributy, a to i více atributů nad jedním databázovým sloupcem – např. s kategoriemi jednou jako ekvidistantní intervaly, jednou jako ekvifrekenční intervaly. Jindy uděláme klon existujícího atributu a sloučíme krajní kategorie atp.

Již od začátku bychom proto měli dobře volit pojmenování každého atributu, aby bylo na první pohled jasné, jakého sloupce se týká a jak byly vytvořeny jeho kategorie.


Související témata:

Zkopírování definice atributů a kategorií z jiné datové matice
Import a export definice atributů a kategorií z/do souboru PMML
Vymazání lokální cache pro všechny atributy z právě nastavené datové matice

lmprepro/start.txt · Poslední úprava: 2017/05/25 18:10 autor: msi