Odhadnout kauzální efekt je snadné. Odhadnout ten správný—a vědět, jaké předpoklady musí platit, aby to byl ten správný—to je celá disciplína. Moje práce zahrnuje randomizované experimenty, stepped wedge design, kvazi-experimentální metody a kauzální mediaci, vždy s důrazem na identifikaci: co přesně tvrdíme a co by muselo platit, aby tento nárok obstál?
Head Start Impact Study (HSIS) je jednou z mála velkých randomizovaných kontrolovaných studií v oblasti předškolního vzdělávání. Náhodné zařazení dětí do programu Head Start nebo kontrolní skupiny umožňuje čistou identifikaci celkového efektu programu. Vědět, že Head Start funguje, však není totéž co vědět, jak funguje. Pochopení mechanismů vyžaduje překročení jednoduchých srovnání experimentální a kontrolní skupiny směrem k sofistikovanějšímu kauzálnímu rámci.
Tento projekt vzešel z harvardské disertace mé kolegyně Soojin Oh Park, která jako první aplikovala rámec průměrných kauzálních mediačních efektů (ACME) na data HSIS. Cílem bylo zjistit, zda čtenářské aktivity rodičů s dětmi zprostředkovávají vliv Head Startu na slovní zásobu a dekódovací dovednosti dětí—a zda se tyto mechanismy liší u dětí učících se dva jazyky (DLL). Disertace byla ambiciózní, srovnávala víceúrovňové strukturní rovnicové modelování (MSEM) i přístup ACME, ale šíře šla na úkor hloubky. Když jsme se Soojin začali spolupracovat na publikaci, pomohl jsem přetvořit článek: srovnání s MSEM jsme zcela vypustili a zaměřili se výhradně na rámec ACME, což nám umožnilo jít výrazně hlouběji v kauzální identifikaci a statistické preciznosti, kterou recenzenti vyžadují.
Metodologické přínosy, které jsem do publikované verze přinesl, byly zásadní. Pro první výzkumnou otázku—zda Head Start ovlivňuje rodičovství a výsledky dětí—jsem přidal odhad treatment-on-the-treated (TOT) pomocí dvoustupňové metody nejmenších čtverců (2SLS), kde náhodné zařazení sloužilo jako instrument pro skutečnou účast v programu. Tím jsme získali lokální průměrný efekt léčby (LATE) vedle odhadu intent-to-treat, což je rozdíl, na kterém záleží při nedokonalé komplianci (86,6 % dětí z experimentální skupiny navštěvovalo Head Start, zatímco 14,4 % dětí z kontrolní skupiny přešlo do programu). Také jsem všude doplnil standardizované velikosti efektu (Cohenovo d), které v disertaci chyběly.
Pro srovnání mediačních efektů mezi DLL a ne-DLL dětmi jsem zavedl bootstrapové intervaly spolehlivosti pro rozdíl v ACME mezi podskupinami—formální statistický test, který disertace neobsahovala. Bez tohoto testu můžete pozorovat, že zprostředkované efekty vypadají mezi skupinami odlišně, ale nemůžete tvrdit, že je rozdíl statisticky významný. Rovněž jsem rozšířil strategii pro chybějící data, implementoval jsem mnohonásobnou imputaci řetězovými rovnicemi (MICE) s bateriemi kontrol robustnosti: vážení inverzní pravděpodobností pro úpravu atrice, srovnání vzorů chybějících dat podle statusu DLL a analýzy citlivosti pro předpoklad sekvenční ignorovatelnosti.
Nakonec jsme přidali čtvrtou výzkumnou otázku, která rozložila mediátor na teoreticky odlišné složky—čtenářské praktiky zaměřené na kód (abeceda, hláskování, rýmování) a praktiky zaměřené na význam (čtení, vyprávění)—a sledovala jejich diferenciální příspěvky k dekódování a slovní zásobě zvlášť pro DLL a ne-DLL děti. Tato dekompozice odhalila, že cesty, kterými rodičovství podporuje gramotnost, nejsou jednotné napříč jazykovými skupinami—zjištění s přímými důsledky pro to, jak programy Head Start přizpůsobují práci s rodinami. Článek byl přijat v časopise Early Childhood Research Quarterly v roce 2026.
V Amazonu jsem se setkal s kauzální inferencí v průmyslovém měřítku. Nový ekonometrický model týmu buy box—logitový Manski discrete choice framework, na kterém jsem se podílel—nebyl prostě nasazen. Byl testován proti stávajícímu systému v kontrolovaném experimentu: A/B test, kde část živého zákaznického provozu byla směrována na nový model, zatímco zbytek pokračoval na starých ručně laděných koeficientech.
Měřítko mění všechno v tom, jak o experimentech přemýšlíte. „Malý“ test může zahrnovat miliony zákaznických sezení denně. Statistická významnost není problém—při takovém vzorku je významné všechno. Výzvou je detekovat smysluplné rozdíly v obchodních metrikách a zároveň zohlednit tisíc rušivých faktorů, které přicházejí s živým tržištěm: sezónní efekty, promo akce, výkyvy zásob, chování konkurence.
Monitoroval jsem experiment a vedl týdenní schůzky s výsledky, kde jsme prezentovali zjištění vedoucímu managementu. Rozhodnutí měla zásadní váhu: rozšířit nový model na větší provoz, upravit parametry, nebo experiment ukončit a vrátit se ke starému systému. Každé doporučení muselo být podloženo daty a každá anomálie musela být vysvětlena—nejen označena.
Experimentační infrastruktura Amazonu byla sama o sobě lekcí v kauzálním myšlení. Každé zákaznické sezení je označeno přiřazením k experimentální skupině. Každá následná akce—kliknutí, přidání do košíku, nákup, vrácení—je provázána s tímto přiřazením přes záznam trigeru. Trigger se aktivuje v okamžiku, kdy je zákazník vystaven léčbě, a vše následující je přiřazeno této expozici. Pochopení tohoto pipeline—jeho předpokladů, jeho selhání, toho, kde může být narušen předpoklad stabilní hodnoty léčby jednotky (SUTVA) na tržišti se síťovými efekty—bylo stejně důležité jako pochopení ekonometrie.
Moje disertační práce na University of Washington využívala Amazon Mechanical Turk jako terénní laboratoř pro ekonomii práce. Mechanical Turk je reálný trh práce—pracovníci přijímají úkoly, vynakládají úsilí a vydělávají peníze—ale s klíčovou výhodou pro kauzální inferenci: výzkumník kontroluje mzdu, úkol i informační prostředí. To umožňuje provádět randomizované experimenty na otázky, které je téměř nemožné kauzálně zkoumat na tradičních trzích práce.
Toto prostředí jsem využil k testování konkurujících teorií efektivních mezd. Model šizení (shirking model) předpovídá, že vyšší mzdy zvyšují úsilí, protože pracovníci mají více co ztratit, pokud jsou propustěni. Model třídění (sorting model) předpovídá, že vyšší mzdy přitáhnou produktivnější pracovníky. Na standardním trhu práce jsou tyto mechanismy konfundovány—nemůžete pozorovat kontrafaktuál téhož pracovníka při jiné mzdě ani tutéž mzdu nabídnutou jinému souboru uchazečů. Na Mechanical Turk můžete randomizovat obojí.
První článek testoval predikce modelů šizení a třídění přímo tím, že náhodně přiřadil různé mzdy k identickým úkolům a měřil úsilí. Druhý, s Clausem Pörtnerem a Michaelem Toomimem, testoval kompenzující mzdové diferenciály—teorii, že nepříjemné práce musí platit více—randomizací pracovníků do úkolů různé obtížnosti při různých mzdách. Třetí odhadoval elasticity nabídky práce na tomto nízkofrikčním trhu. Společně tyto články ukázaly, že online trhy práce mohou sloužit jako rigorózní terénní prostředí pro testování základních ekonomických teorií, s typem čisté identifikace, kterou observační data z trhu práce zřídka umožňují.
Studie Expanded Learning Opportunity (ELO) v Cultivate Learning představovala jiný typ experimentu—takový, kde jednotkou randomizace byl čas, nikoli jednotlivci. Projekt měl dva cíle: vyvinout a validovat nový nástroj měření kvality pro programů mimoškolních aktivit (Quality Seal) a otestovat, zda koučovací intervence dokážou zlepšit kvalitu programů. Designová výzva spočívala v tom, že nemůžete náhodně odepřít koučování programům, které souhlasily s účastí na zlepšování kvality. Stepped wedge design to řeší: každý program nakonec léčbu obdrží, ale časování zahájení léčby je randomizováno, čímž vzniká variabilita potřebná pro kauzální identifikaci.
Vedl jsem kvantitativní analýzu. Studie zahájila dvě kohorty mimoškolních programů napříč státem Washington se třemi experimentálními větvemi: prezenční koučování, online koučování a hybridní kombinace obou. Programy byly blokovány podle typu pracoviště a předexperimentálních skóre kvality (měřených nástrojem Program Quality Assessment) a poté randomizovány v rámci bloků na časování léčby pomocí neúplného blokového designu. To znamenalo, že v jakémkoli okamžiku pozorování některé programy již začaly dostávat koučování, zatímco jiné ještě ne—čímž vznikla jak vnitroprogramová, tak meziprogramová variabilita v expozici léčbě.
Analytický rámec tvořilo hierarchické lineární modelování s kříženými náhodnými efekty—pozorování vnořená současně do programů, hodnotitelů a typů pracovišť—aby se zohlednily mnohé zdroje klastrování v datech. Primárními výsledky byly PQA a Expectations and Demands of Children in Care (ECDC), měřené v několika časových bodech před a po zahájení koučování. Struktura stepped wedge znamenala, že kontrolní pozorování nepocházela od oddělené skupiny programů, ale od týchž programů před zahájením jejich léčby, což z definice kontroluje časově invariantní charakteristiky programů.
Výsledky byly pozoruhodné. Všechny tři modality koučování přinesly statisticky významná zlepšení kvality programů, ale online koučování mělo nejsilnější pozitivní efekt na skóre PQA—kontraintuitivní zjištění vzhledem k preferenci oboru pro osobní interakci. Analýza nákladů a přínosů ten argument ještě posílila: online koučování bylo třikrát až pětkrát nákladově efektivnější než prezenční, zejména proto, že eliminovalo čas strávený cestováním a umožnilo koučům obsluhovat více programů. Byl rok 2019, měsíce předtím, než COVID-19 učinil vzdálenou formu nejen efektivní, ale nezbytnou.
- Kauzální mediační analýza — Průměrné kauzální mediační efekty (ACME) dle Imai, Keele & Tingley (2010), analýza citlivosti pro sekvenční ignorovatelnost
- Randomizované kontrolované studie — Odhad intent-to-treat, úprava pro komplianci, analýza heterogenity podskupin
- A/B testing ve velkém měřítku — Atribuce na základě triggerů, monitorování více metrik, experimentování na tržišti se síťovými efekty
- Stepped wedge design — Randomizované časování léčby s neúplnou blokovou randomizací, HLM s kříženými náhodnými efekty
- Terénní experimenty — Randomizované přiřazování mezd a úkolů na Mechanical Turk pro testování teorie trhu práce
- Kvazi-experimentální metody — Propensity score matching, metoda diferencí v diferencích, instrumentální proměnné