Tvorba simulace syntetických mikrodat z populačního censu

Věda a výzkum

Doba řešení: 1. března 2021 - 28. února 2023
Řešitel: Ing. Jiří Novák, Ph.D.
Pracoviště: Fakulta informatiky a statistiky
Katedra ekonomické statistiky (4040)

Samostatný řešitel
Poskytovatel: Ministerstvo školství, mládeže a tělovýchovy
program: Interní grantová agentura VŠE
Celkový rozpočet: 295 560 CZK
Registrační číslo F4/50/2021
Číslo zakázky: IG404021
Cílem předkládaného projektu je nalezení nejlepší metody pro simulaci syntetické populace z mikrodat populačního censu, která bude respektovat přísné požadavky na důvěrnost identity jednotlivých respondentů za současného zachování informací v datech a datové utility pro případný budoucí výzkum, který z těchto mikrodat bude čerpat. Publikování mikrodat, tedy údajů na nejmenším možném detailu (až na úrovni jednotlivých respondentů), je jedním ze současných trendů jak v evropské, tak světové statistice. Odborná veřejnost volá po možnosti zpracovávat své analýzy na datech, jež nejsou předzpracována nejrůznějšími agregacemi, ale jsou naopak co nejblíže původním hodnotám individuálních respondentů. Tyto údaje jsou však předmětem české a evropské právní regulace (zákon č. 89/1995 Sb., o státní statistické službě, zákon č. 101/2000 Sb., o ochraně osobních údajů, a nařízení Evropského parlamentu a Rady č. 223/2009 ze dne 11. března 2009 o evropské statistice) za účelem ochrany osobních údajů a z toho důvodu jsou na ně aplikovány metody na ochranu důvěrnosti, které zamezují případné identifikaci jednotlivých respondentů ve zveřejněných datech. Tyto metody na ochranu identity respondentů však mohou být natolik účinné, že způsobí neúměrné znehodnocení dat, proto bývají v neposlední řadě používány metody ověřující informační ztrátu a datovou utilitu výsledného datasetu pro další zpracování.
V průběhu řešení předkládaného projektu se řešitelé zaměří na jednotlivé metody simulace syntetických mikrodat, které jsou lepší volbou pro použití na datech pocházejících z populačního censu oproti tradičnějším metodám, jelikož jsou schopny zaručit maximální míru bezpečnosti a důvěrnosti individuálních údajů pocházejících od respondentů, kterými jsou v případě populačního censu všechny osoby nacházející se na území České republiky. Výsledná zjištění budou pak přímo uplatněna v praxi při zpracování mikrodat po Sčítání lidu, domů a bytů 2021, což umožní publikování mikrodat z populačního censu ve formátu Scientific-use-files v Safecentru na Českém statistickém úřadě pro odbornou veřejnost. Analytická část pak bude konzultována s odborníky z Maďarska, kteří jsou v oblasti publikování syntetických mikrodat průkopníky ve středoevropském prostoru, a dojde také k porovnání výsledků předkládaného projektu s jejich postupy a metodikou.
Průběžné výstupy budou prezentovány formou příspěvků na konferencích AMSE, MME, PSD a uRos. Publikace finálních výstupů jsou naplánovány do časopisu indexovaného v databázi Scopus (Statistika) a časopisu s impakt faktorem (Prague Economic Papers). V rámci projektu bude probíhat úzká spolupráce s ČSÚ a jako předpokládaný výstup projektu bude zapracování výsledných zjištění do praxe na ČSÚ a uvolnění vytvořených mikrodat odborné veřejnosti.

Projekty řešitele