Uživatelské nástroje

Nástroje pro tento web


lmtask:settings:ftcedenthierarchy

Zadání množiny relevantních cedentů

Cedent je odvozený booleovský atribut tvořený konjunkcí dílčích cedentů. Ty jsou samy o sobě také odvozenými booleovskými atributy a jsou tvořeny konjunkcemi nebo disjunkcemi literálů. Literál je základních booleovský atribut nebo jeho negace.

Implementace zadávání respektuje tuto hierarchii, a je tedy také rozdělena do tří částí – zadávání parametrů celých cedentů, zadávání parametrů dílčích cedentů a konečně zadávání parametrů literalů.

Zadání množiny relevantních cedentů se používá ve všech GUHA-procedurách pro zadání podmínky (podmnožiny záznamů datové matice). V procedurách 4ft-Miner, SD4ft-Miner a Ac4ft-Miner se dále používá pro zadání antecedentu a sukcedentu. V procedurách pracujících s dvojicemi podmnožin záznamů se používá pro definici těchto relevantních podmnožin. V proceduře Ac4ft-Miner se používá také pro zadání statických i variabilních částí antecedentu a sukcedentu.

Poznámka: Zcela přesně bychom zde měli hovořit o 4ft-cedentech a 4ft-literálech, abychom je odlišili od skupin atributů a zadání jednotlivých atributů v GUHA-procedurách CF-Miner, KL-Miner atd. V těch se z historických důvodů v implementaci a pro potřeby skriptovacího jazyka LMCL pracuje s pojmy CF-cedent, KL-cedent atd. Při popisu uživatelského rozhraní modulu LM Workspace však můžeme používat zkrácený termín cedent a literál. Zároveň budeme místo úplného zadání množiny relevantních cedentů/dílčích cedentů/literálů psát zkráceně zadání cedentů/dílčích cedentů/literálů, resp. konkrétně např. zadání antecedentu.

Více viz: Zadání cedentu
Více viz: Zadání dílčího cedentu
Více viz: Zadání literalu

Kontrola zadání cedentu

Každé zadání množiny relevantních cedentů vyskytující se v zadání úlohy je před spuštěním jejího výpočtu zkontrolováno v rámci procesu kontroly zadání úlohy.

Chyby

Nutné požadavky, které musí splnit každé zadání cedentu, jsou:

  • Počet zadání literálů v jednotlivých dílčích cedentech stačí na dosažení zadané minimální délky celého cedentu.
  • Počet zadání literálů v každém dílčím cedentu stačí na dosažení zadané minimální délky daného dílčího cedentu.
  • Součet minimálních délek dílčích cedentů nepřekračuje zadanou maximální délku celého cedentu.
  • Je zadaná kategorie pro koeficienty typu one category.
  • Zadaná minimální délka koeficientu je větší než 0.
  • Počet kategorií atributu stačí na naplnění zadané minimální délky koeficientu.

Nesplnění některého z výše uvedených požadavků je uvedeno v sekci „chyby“ validačního protokolu úlohy a zabrání spuštění výpočtu úlohy.

Varování

Upozornění na možné problémy, které však nebrání ve spuštění výpočtu, jsou:

  • Maximální možná délka celého cedentu by neměla překročit osm literálů.
  • V zadání je více zadání literálů týkajících se jednoho atributu (pravděpodobně je jeden atribut omylem vložen vícekrát do zadání různých dílčích cedentů).
  • Počet kombinací pro koeficient typu podmnožina (angl. subset) by neměl přesáhnout 108.
  • Maximální délka koeficientu typu podmnožina (angl. subset) by neměla překročit hodnotu 5.
  • Koeficient typu podmnožina (angl. subset) není vhodný pro atribut s kardinálními hodnotami (datový typ desetinné číslo).

Doporučení

Doporučení vychází ze zkušeností při práci se systémem LISp-Miner. Nebrání ve spuštění výpočtu úlohy.

  • Zvážit použití koeficientu typu sekvence místo podmnožina (angl. subset) pro ordinální hodnoty (datový typ celé číslo).
  • Zvážit použití koeficientu typu cyklická sekvence místo sekvence pro atributy založené nad sloupci odvozenými z databázového sloupce Datum/Čas.

Tipy a doporučení pro zadávání cedentů

Následují další tipy a doporučení pro zadávání cedentů.

  • Jeden dílčí cedent obvykle odpovídá jedné skupině atributů.
  • Zadání generované množiny relevantních cedentů může zahrnovat i prázdný cedent – cedent, ve kterém není žádný literál. V takovém případě musí být minimální délka jak celého cedentu, tak i všech dílčích cedentů nastavena na 0. Běžně se prázdný cedent používá při zadávání podmínky ve všech typech GUHA-procedur, protože ta je přednastavená jako prázdná. Představitelný je i prázdný antecedent ve 4ft-Mineru, který umožní výpis i takových asociačních pravidel, která platí pro celou datovou matici (bez jakéhokoliv předpokladu na levé straně pravidla). Naproti tomu prázdný cedent není možné zadat na pravé straně asociačního pravidla.
  • Nemá-li smysl, aby se dva nebo více atributů objevovalo najednou ve vygenerované variantě cedentu, vytvoříme pro ně třídu ekvivalence a všechny do ní Zadání tříd ekvivalence. Alternativně je možné vytvořit samostatný dílčí cedent s nastavenou minimální a maximální délkou rovnou 1, do něj pak atributy vložíme.
  • Je-li mezi atributy dvojice, kdy jeden doplňuje hodnoty druhého, může být potřeba zajistit, aby se první atribut neobjevil nikdy pouze samotný. Potom dvojici umístíme do samostatného dílčícho cedentu a první atribut označíme jako remaining a jeho nadřízený jako basic.
  • Pozor na jednoduché zadání obrovského množství generovaných variant. To se týká jak velmi dlouhých cedentů (resp. dílčích cedentů), u kterých je vhodné zvážit omezení maximální délky parametrem MaxLen, tak koeficientů typu podmnožina (angl. subset). Zejména u atributů s desítkami (a více) kategorií je třeba omezit maximální délku koeficientu.
  • Koeficient typu jedna kategorie se dá použít pro rychlé vymezení podmnožiny záznamů datové matice – např. HMesto(Praha) pro omezení analýzy pouze na osoby z Prahy. U dichotomických atributů pomocí tohoto typu koeficientu rychle vybereme tu z obou hodnot, která je vhodná pro cíle analýzy – např. PSleva_b(ano) pro analýzu hostů, kterým byla poskytnuta sleva.
  • Zejména u koeficientů typu jedna kategorie můžeme pomocí typu gace snadno získat doplněk (vše ostatní) – např. HMesto(Praha) × ¬HMesto(Praha) pro definici dvou podmnožin záznamů, které chceme porovnat. Nebo ¬PSleva(0) pro zahrnutí všech pobytů s nenulovou slevou.
  • Skupiny atributů s velmi málo četnými kategoriemi nemá obvykle smysl spojovat logickou spojkou konjunkce. Stačí-li splnění alespoň jednoho z nich, použijeme logickou spojku disjunkce.

Související témata:

Zadání úlohy
Klonování úlohy
Kontrola zadání úlohy
Výpočet úlohy

lmtask/settings/ftcedenthierarchy.txt · Poslední úprava: 2015/09/01 16:30 autor: msi