Dotazníková data nejsou jako jiná data. Každé číslo nese váhu—doslova. Lidé ve vzorku zastupují různé počty lidí v populaci, a ignorování tohoto faktu produkuje odhady, které jsou přesné, ale chybné. Správné zvládnutí této problematiky je základem všeho ostatního.
Návrh dotazníků jsem se nenaučil v kurzech ekonometrie nebo statistiky na vysoké škole. Naučil jsem se ho v praxi na Cultivate Learning a poprvé jsem byl požádán o návrh vzorkovací strategie na projektu PPI—vícestátním partnerství financovaném Nadací Billa a Melindy Gatesových.
Gatesova nadace chtěla, aby každý stát v partnerství poskytl data CLASS a ECERS reprezentující všechny státní předškolní třídy a programy v daném státě. Výzva byla značná: k návrhu správné vzorkovací strategie je potřeba kompletní seznam všech programů a tříd—vzorkovací rámec—který jsem nedostal. Výzkumní partneři v každém státě měli vlastní představy o sběru dat a příliš si necenili, když jim někdo říkal, co mají dělat, zatímco statistická odbornost pro tento typ práce v těchto státech z velké části chyběla.
Napsal jsem tedy 64stránkový vzorkovací plán, který fungoval jako technický průvodce i diplomatický dokument—pomohl státním partnerům zachovat flexibilitu ve způsobu sběru dat a zároveň sbírat data reprezentativním způsobem, který mohl informovat celkovou strategii Gatesovy nadace. Plán pokrýval vhodné vzorkovací strategie, výběrové zkreslení, definice stratifikace, analýzy síly pro každý cílový stát (Tennessee, Oregon, Washington), protokoly hodnocení CLASS a obsahoval kompletní tutoriál dotazníkového vzorkování jako přílohu.
O dva roky později jsem navrhl vzorkovací strategii pro Washington Early Childhood Workforce Survey. Tentokrát jsem měl větší kontrolu. Výzvou bylo vytvořit reprezentativní odhady pro celou pracovní sílu raného dětství státu Washington—napříč 39 okresy, které se pohybují od King County (Seattle, 31,6 % populace) po Wahkiakum County (0,01 %). Vyvinul jsem stratifikovaný vzorkovací rámec, vypočítal váhy návrhu zohledňující rozdílné míry odezvy mezi straty a vytvořil populační odhady se správnými standardními chybami.
Výsledkem byl dataset, který dokázal odpovědět na otázky o celé pracovní síle—jejich kvalifikaci, pracovních podmínkách a zaměstnavatelích—nejen o podskupině, která náhodou odpověděla. Rozdíl mezi vzorek z pohodlí a pravděpodobnostním vzorkem je rozdíl mezi anekdotou a důkazem.
Data z průzkumu pracovní síly také otevřela neočekávaný výzkumný směr. Průzkum pracovní síly WA DCYF vyšel v prosinci 2019, těsně před prvními případy COVID-19. Následný průzkum byl rozeslán v dubnu 2020, čtyři měsíce po začátku pandemie. Reprezentativní data z obou stran historického šoku nám poskytla přirozený experiment. Vedl jsem tým výzkumníků při analýze dopadu na duševní zdraví pedagogů raného dětství a zjistili jsme, že průměrný výskyt symptomů deprese vzrostl o 35 % a pravděpodobnost překročení diagnostického prahu deprese se zvýšila o 114 %. Studie—zakotvená v teorie sebeurčení Deciho a Ryana—byla publikována jako kapitola v knize v roce 2023. Nic z toho by nebylo možné bez vzorkovacího návrhu, který učinil data reprezentativními.
V rámci projektu PPI jsem byl přiřazen k finanční větvi strategie Gatesovy nadace. Většina projektu byla založena na kvalitativním výzkumu—rozhovorech s vedoucími státních předškolních programů, výzkumně-praktickými partnery a státními politiky. Já jsem byl jednomanový kvantitativní analytický tým. Šéf mi dal volnou ruku—nebo spíše absenci směru—takže jsem si nebyl zcela jistý, jak zapadnout do strategie, kde finanční data se přirozeně nehodila ke kvalitativní analýze a nikdo mi nedal žádná kvantitativní data, se kterými bych pracoval.
Začal jsem proto hledat datasety sám. Vytvořil jsem mapu veřejně dostupných datasetů o vzdělávání v raném dětství a to se nakonec zkrystalizovalo do státních přehledů. Během tohoto procesu jsem narazil na National Survey of Early Care and Education (NSECE)—bohatý, národně reprezentativní dataset o pracovní síle v ECE. Jak jsem se s ním seznamoval, propojil jsem svou mentorskou činnost se znalostí dat a vedl svou mladší kolegyně Liu Liu k publikování článku „Early childhood educators’ pay equity: A dream deferred“—práce, která se věnovala tématu, o které se můj šéf zajímal, ale nikdy ho neformuloval jako konkrétní výzkumnou otázku.
Velká část mé práce využívá federální datasety s vlastními komplexními vzorkovacími návrhy: American Community Survey (ACS PUMS) od Census Bureau, data o zápisech CCDF od Administration for Children and Families (ACF) a data NIEER o státních pre-K programech. Každý vyžaduje pečlivé nakládání s váhami návrhu, straty a primárními vzorkovacími jednotkami pro validní inferenci.
Pro státní přehledy jsem použil mikrodata ACS PUMS k vytvoření populačních odhadů dětí ve věku 3–4 roky podle příjmové skupiny, etnicity a městského statusu—a následně je porovnal se vzorci zápisů do předškolních zařízení. Analýza odhalila konzistentní zjištění napříč státy: etnické menšiny jsou neproporcionálně zastoupeny v chudobě, ale jejich zastoupení v zápisech do předškolních zařízení tyto míry chudoby neodpovídá. Děti na venkově čelí podobné mezery. To jsou zjištění, která nelze vidět bez správně vážených dat a správných srovnání.
- ACS PUMS (Census) — Mikrodata s váhami na úrovni osob pro demografickou analýzu a analýzu zápisů podle příjmu, etnicity a geografie
- ACF CCDF — Federální data o zápisech do dotací na péči o děti s trendy na úrovni států v čase
- NIEER — Data o zápisech a financování státních pre-K programů pro srovnání mezi státy
- ERS USDA — Klasifikace venkov-město pro geografickou stratifikaci
- NSECE — National Survey of Early Care and Education, národně reprezentativní data o pracovní síle použitá pro studii o mzdové rovnosti
- Washington Workforce Survey — Originální dotazníkový nástroj s vlastně navrženým stratifikovaným vzorkováním a váhami návrhu
Státní přehledy byly navrženy pro politické publikum—státní zákonodárce, vedoucí agentur, správce programů—kteří potřebují vidět příběh v datech, aniž by se museli brodít regresními tabulkami. Každý přehled sleduje konzistentní vizuální gramatiku: trendy zápisů vlevo, rozklady rovnosti uprostřed a přístup k předškolnímu vzdělávání vpravo. Uspořádání vedle sebe činí mezery viditelnými na první pohled.
Vytvořil jsem je pro více států, přičemž jsem analýzu přizpůsobil specifickému programovému prostředí každého státu—Head Start, ECEAP ve Washingtonu, Oregon Pre-K/Oregon Head Start, Tennessee VPK—a zároveň zachoval konzistentní analytický rámec umožňující srovnání mezi státy.