Ekonomie vám dá nejdřív teorii a pak vás pošle hledat data. Vzdělávání vám často dá nejdřív data—desítky položek v nástrojích pro hodnocení kvality tříd, v dětských testech, v rodičovských dotaznících—a požádá vás, abyste přišli na to, co to všechno znamená. Právě tady přichází ke slovu strukturální modelování a faktorová analýza: mocné nástroje, ale nebezpečné, pokud je necháte běžet bez disciplíny.
Měřicí nástroje v předškolním vzdělávání jsou svým charakterem vysoko-dimenzionální. Classroom Assessment Scoring System (CLASS) má tři domény, deset dimenzí a desítky behaviorálních indikátorů. Rodina Environment Rating Scales (ERS)—ECERS-R, ITERS-R, FCCERS-R—obsahuje stovky položek pokrývajících vše od uspořádání místnosti po kvalitu interakcí učitel–dítě. Dětské testy jako PPVT (slovní zásoba) a Woodcock-Johnson (dekódování) generují několik subskórů. Otázka, která se vine celou touto prací, je klamně jednoduchá: jak tyto položky zkombinovat do skórů, které jsou zároveň reliabilní i validní?
Historicky byla odpověď v oboru stejná jako přístup „magických čísel“, na který jsem narazil v Amazonu: někdo nadřízený rozhodl. Skupina položek se označila jako doména, zprůměrovala do skóre a tato skóre se zprůměrovala do celkového hodnocení. Zda tato agregace odrážela skutečnou strukturu dat—zda položky v rámci domény opravdu měřily jednu věc, zda různé domény přispívaly k výsledkům dětí stejnou měrou—se testovalo zřídka. A právě tady jsem přišel já.
Můj první projekt v Cultivate Learning—tehdy pod názvem CQEL, Childcare Quality and Early Learning Center for Research and Professional Development na University of Washington—byla celostátní validace Early Achievers, washingtonského systému hodnocení a zlepšování kvality (QRIS). Každý stát byl motivován federálními granty Race to the Top k vytvoření a validaci takového systému. Státy přistoupily k této snaze s mentalitou plnění požadavků: udělaly přesně to, co vyžadovaly jejich smlouvy, nic navíc. Otázka, zda jejich hodnoticl systémy skutečně predikovaly výsledky dětí—zda program „úrovně 4“ byl smysluplně lepší než „úroveň 2“—byla druhořadá oproti otázce, zda byly splněny požadavky grantu.
Department of Early Learning zadal CQEL provedení validace. Veškerou statistickou analýzu jsem dělal já. Výzva byla značná: 947 dětí ve 156 třídách, s masivní chybějící hodnotou v demografických proměnných (přes 60 % domácností mělo neúplná data o příjmu, vzdělání či statusu dotací), malé počty ve skupinách po rozdělení podle typu třídy (13 tříd pouze pro kojence, 25 smíšených rodinných zařízení) a základní problém, že studie byla observační—děti nebyly náhodně zařazeny do programů, takže selekce byla stálou hrozbou.
Prvním problémem byla imputace. Při tolika chybějících demografických proměnných jsem potřeboval strategii robustní vůči overfittingu a zároveň zachovávající korelace mezi proměnnými. Formuloval jsem to jako predikční problém a porovnal čtyři přístupy: gradient boosting (který nativně pracuje s chybějícími daty a odólává overfittingu díky regularizaci), random forests, metodu nejmenších čtverců a multivariantl imputaci řetězenými rovnicemi (MICE). Každý přístup jsem vyhodnotil pomocí 10-fold křížové validace na prediktivní přesnosti mimo vzorek—nikoli na fitování v rámci vzorku, což by při tak malém datasetu bylo zavádějící. Gradient boosting vyhrál pro příjem a vzdělání; random forest pro status dotací.
Šlo o záměrné rozhodnutí přinést strojové učení do oboru, který ho nikdy neviděl. Položky Early Achievers představovaly klasický vysoko-dimenzionální problém: mnoho korelovaných prediktorů, malé vzorky, stálé riziko overfittingu. Standardní přístup oboru—konfirmační faktorová analýza následovaná víceúrovňovou regresí—byl vhodný k testování předem specifikovaných struktur, ale špatně vybaven k odhalování, zda tyto struktury jsou ty správné. Provedl jsem obojí: klasické faktorové analýzy, které vyžadovala smlouva, i přístupy strojového učení—gradient boosting, random forests, LASSO, regresní stromy—které mohly odhalit vzorce, jež faktorový model nevidl.
Výsledky byly střízlivé. Vztah mezi měřením kvality třídy a výsledky dětí byl slabý, vysvětloval méně než 10 % variance a koncentroval se na spodním konci škály kvality—což naznačovalo klesající výnosy ze zlepšování kvality nad určitý základní práh. Uvedl jsem to pocítivě, včetně analýzy síly ukazující, že smysluplná detekce těchto efektů by vyžadovala 200–300 tříd, nikoli dostupných 100–150. Technická zpráva o 530 stranách, kterou jsem vytvořil, obsahovala každou analýzu, každý test citlivosti, každý test robustnosti—propensity score matching, spline regrese, kvadratické specifikace, HLM s mnohonásobnou imputací—aby nic nezůstalo skryto. Publkovaná validační zpráva to zkondenzovala do kratšího dokumentu, který šel státu.
Strukturální modelování (SEM) není něco, co jsem se naučil v ekonomii. Ekonomie přichází s teorií—maximalizace užitku, tržní rovnováha, racionální volba—a pak tuto teorii testuje oproti datům. Vztah mezi teorií a měřením je relativně disciplinovaný, protože teorie omezuje, co můžete tvrdit. Ve vzdělávání je situace často opačná: máte velký počet pozorování a žádnou silnou teorii o tom, jak by spolu měly souviset. SEM a faktorová analýza jsou navrženy přesně pro tuto situaci—umožňují postulovat latentní konstrukty, které vysvětlují vzorce v pozorováních, a testovat, zda tyto konstrukty sedí.
Nebezpečí je reálné. Bez silné teorie se faktorová analýza stává licencí k nalezení jakékoli struktury, kterou chcete. Zrotujte faktory jinak, vypusťte položku či dvě a vyjde jiný příběh. To je problém replikovatelnosti v malém: analytik má příliš mnoho stupňů volnosti a data nejsou dostatečně omezující, aby vyloučila špatné modely. K SEM přistupuji stejně jako ke každé statistické metodě—s explicitní pozorností k tomu, jaké předpoklady jsou potřeba, jaké analýzy citlivosti mohou tyto předpoklady prověřit a co metoda nemůže říct.
Ve validaci Early Achievers jsem použil konfirmační faktorovou analýzu k testování, zda předem stanovená struktura hodnocení státu—seskupení položek do domén a standardů—je podpořena daty. Testoval jsem invarianci měření napříč typy programů a věkovými skupinami. A porovnal jsem státní agregační schéma s alternativními strukturami odvozenými z dat samotných, včetně metody proporčního skórování pro rodinu ERS, která se ukázala jako prediktivnější pro výsledky dětí než tradiční přístup ke skórování.
- Konfirmační faktorová analýza — Testování latentní struktury nástrojů CLASS, ERS a QRIS; invariance měření napříč skupinami
- Strukturální modelování — Cestovní modely s latentními mediátory (PCLITACT v HSIS), víceskupinové SEM pro porovnání podskupin
- Víceúrovňové modelování — HLM pro děti vnořené v třídách v rámci center; náhodné intercepty a směrnice; clusterově robustní inference
- Redukce dimenzionality — Gradient boosting, random forests, LASSO pro výběr proměnných a imputaci ve vysoko-dimenzionálních vzdělávacích datech
- Analýza prahů a nelinearit — Kvadratické specifikace, spline regrese, propensity score matching pro detekci nelineárních vztahů kvality a výsledků
- Analýza síly — Výpočty minimální detekovatelné velikosti efektu pro clusterové designy; doporučení velikosti vzorku pro budoucí validační studie