====== Matice dat a atributy ====== Vstupem do GUHA procedury je matice dat. Řádky matice dat odpovídají pozorovaným objektům, sloupce vlastnostem pozorovaných objektů. Místo termínu //vlastnost// se často používá termín //atribut//. Sloupce matice tedy odpovídají atributům. Abychom odlišili atributy - sloupce matice dat od booleovských atributů, nazýváme je //základními atributy//. pokud není nebezpečí nedorozumění, používáme pouze pojem //atribut// místo //základní atribut//. Předpokládáme, že každý základní atribut má konečně mnoho přípustných hodnot které se nazývají //kategorie//. ===== Příklad matice dat ===== Příkladem matice dat je matice [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_hotel_prehled_skupin|Hotel]] vycházející ze cvičných dat [[https://lispminer.vse.cz/wiki/doku.php?id=lmdata:hotel2015|Hotel]] naznačená v následujícím obrázku. {{ ::matice_priklad_hotel.png |}} Matice dat **Hotel** má 2000 řádků. Přípustné kategorie pro jednotlivé atributy jsou uvedeny v rámci informací o skupinách atributů, do kterých jednotlivé atributy patří. Atributy **HVek_ed10** a **HPohlavi** patří do skupiny atributů [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_hotel_prehled_skupin#skupina_host|Host]], atributy **HMesto** a **HStat** do skupiny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_hotel_prehled_skupin#skupina_host_bydliste|Host/Bydliště]], atributy **POsob** a **PTypPobytu** do skupiny [[https://lispminer.vse.cz/guhadi/doku.php?id=lm_guha_di_hotel_prehled_skupin#skupina_pobyt|Pobyt]]. Stručnější příklad matice dat je v následujícím obrázku. {{ ::matice_obecne_strucne.png |}} Jsou zde atributy **A1**, **A2**, ..., **AK** s kategoriemi - přirozenými čísly. ===== Obecný tvar matice dat ===== Obecný tvar matice dat **M** obvykle zapisujeme takto: {{ ::matice_obecne.png |}} Matice dat **M** má //n// řádků o1, ..., on a K sloupců - atributů **A****1**, **A****2**, ..., **A****K**. **A****i**(oj) značí hodnotu atributu **A****i** pro řádek oj, kde i = 1,...,K a j = 1,...,//n//. ===== Podmatice matice dat ===== Podmaticí **M/χ** matice dat **M** rozumíme matici dat, která vznikne z **M** vynecháním všech řádků, které nesplňují booleovský atribut **χ**. Pokud existuje alespoň jeden řádek matice **M** splňující **χ**, pak **M/χ** je matice dat vytvořená právě ze všech řádků matice **M** splňujících **χ**. Příkladem podmatice dat je matice **Hotel**/**HStat(//ČR//)**, která je podmaticí matice dat** Hotel**. Matice **Hotel**/**HStat(//ČR//)** je tvořena 913 řádky matice dat **Hotel** splňujícími booleovský atribut **HStat(//ČR//)**, viz následující obrázek. {{ :podmatice_priklad_hotel.png |}}