Uživatelské nástroje

Nástroje pro tento web


lmianalysis:pca

Analýza hlavních komponent

Analýza hlavních komponent (angl. Principal Component Analysis, zkr. PCA) je statistická technika používaná pro redukci dimenzí u mnoharozměrných dat. V systému LISp-Miner je využita pro dvourozměrnou vizualizaci záznamů.

Předpokládá se, že záznamy jsou popsány mnoha veličina (daleko více než dvěma). Pomocí analýzy hlavních komponent jsou vypočteny dvě hlavní komponenty jako lineární kombinace hodnot původních veličin. Ty jsou pak zobrazeny jako 2D graf.

Záložku pro analýzu hlavních komponent otevřeme z menu Interactive analysis, nebo z kontextové nabídky pro položku C. Interactive analysis ve stromu otevřených záložek po levé straně obrazovky.

Výběr sloupců pro výpočet komponent

Pomocí tlačítka Columns vybíráme (numerické) sloupce, které vstupují do výpočtu. Metodou pokus-omyl můžeme nalézt vhodnou podmnožinu sloupců, která dobře rozděluje záznamy analyzovaných dat do shluků. Nalezení vhodných sloupců je poměrně pracné a časově náročné. Proto je obvykle lepší nechat nejvhodnější kombinace vyhledat automaticky, např. pomocí procedury MCluster-Miner.

Je důležité mít na paměti, že analýza hlavních komponent pracuje s původními (nepředzpracovanými) hodnotami databázových sloupců v původní databázové tabulce, nikoliv nad kategorizovanými atributy. Do výpočtu hlavních komponent mohou být zahrnuty pouze záznamy, které ani v jednom ze zadaných sloupců neobsahují hodnotu NULL.

Obarvení bodů grafu

Body grafu je možné nechat obarveit podle příslušnosti do kategorie zvoleného atributy. Toho docílíme zaškrtnutím volby Colorize points based on a vyběrem atributu z rozbalovací nabídky.

Podmnožina záznamů

Analýzu je možné omezit pouze na podmnožinu záznamů z databázové tabulky. Podmnožina se definuje pomocí již předzpracovaného kategoriálního atributu tak, že nejprve zaškrtneme volbu Use attribute for condition v pravém horním rohu záložky, a pak vybereme požadovaný atribut z rozbalovací nabídky. Následně pomocí posuvníku vybereme jednu z kategorií atributů. V grafu se budou zobrazovat pouze body pro záznamy, jejichž hodnota ve sloupci daném vybraným atributem patří do vybrané kategorie.

Jak měníme posuvníkem právě nastavenou kategorii, tak se mění i podoba grafu.

Jittering

Pomocí volby Add Jitter je možné k souřadnicím bodů v grafu přidat náhodnou složku. To umožní vizuálně rozlišit záznamy, které by se jinak překrývaly.

Vytvoření odvozených sloupců

Vypočtené hlavní komponenty můžeme přidat jako odvozené sloupce.

Po stisku tlačítka Add components as derived columns se objeví dialogové okno, ve kterém zadáváme počáteční název právě přidávaných sloupců (ke kterému bude pro odlišení přidáno pořadové číslo komponenty) a zejména počet komponent, pro které se mají odvozené sloupce vytvořit.

Volitelně je možné nechat pro každý z přidaných odvozených sloupců přidat i atributy, navíc opět volitelně do nějaké skupiny atributů.


Souvísející témata:

Analytická procedura MCluster-Miner
Scatter-plot analýza
Korelační analýza
Interaktivní analýza
Seznámení s daty

Praktická ukázka: Demo Hotel: Analýza hlavních komponent

lmianalysis/pca.txt · Poslední úprava: 2016/01/03 20:17 autor: msi