Vybrané problémy hierarchické shlukové analýzy kategoriálních dat

Věda a výzkum

Doba řešení: 1. března 2021 - 28. února 2022
Řešitel: Ing. Jaroslav Horníček
Pracoviště: Fakulta informatiky a statistiky
Katedra statistiky a pravděpodobnosti (4100)

Samostatný řešitel
Poskytovatel: Ministerstvo školství, mládeže a tělovýchovy
program: Interní grantová agentura VŠE
Celkový rozpočet: 233 680 Kč
Registrační číslo F4/22/2021
Číslo zakázky: IG410011
Projekt je zaměřen na shlukování objektů charakterizovaných kategoriálními proměnnými. Objekty mohou být např. klienti finančních institucí či respondenti v dotazníkových šetřeních různého charakteru. Segmentace objektů je v praxi žádaná úloha, avšak v případě kategoriálních dat jsou často využívány metody, které dostatečně nezohledňují charakter dat. Členové týmu se soustředí na hierarchickou shlukovou analýzu s využitím takových měr podobnosti pro datové soubory s nominálními proměnnými, které zohledňují charakter dat (např. počet kategorií či rozdělení četností). Projekt si klade za cíl zkoumání vlastností interních evaluačních kritérií, které je možno využít pro hodnocení výsledků shlukové analýzy kategoriálních dat ve smyslu kvality shluků, zkoumání možností nahrazování chybějících údajů v datových souborech s kategoriálními proměnnými, včetně vlivu způsobů nahrazování na výsledné shluky, a prozkoumání možných způsobů vizualizace kategoriálních dat v procesu shlukování. Experimenty budou prováděny v prostředí R s využitím balíčku nomclust, který byl v minulosti vytvořen členy týmu. Do tohoto balíčku funkcí budou začleňovány další postupy v procesu shlukování kategoriálních dat.

Projekty řešitele