Na doktorském studiu mi ekonomický PhD program dal solidní základy v ekonometrii a teorii. Ale nebylo mi to dost. Chtěl jsem porozumět metodám, které műj program neučil—a tak jsem je šel hledat po celé univerzitě.
Během svého doktorátu na University of Washington jsem absolvoval kurzy daleko za hranicemi standardní ekonomické sekvence: bayesovskou statistiku, regresní splajny, prostorovou regresní analýzu, numerickou analýzu, hierarchické modelování, experimentální design a počítačové programování. Každý z těchto kurzű se později ukázal užitečný—některé okamžitě, jiné až o roky později. Kurz bayesovské statistiky mě mimo jiné seznámil s Latent Dirichlet Allocation, generativním pravděpodobnostním modelem pro odhalování skryté tematické struktury ve velkých kolekcích textu. V té době to byl jen další algoritmus. Během několika let se z něj stal základ publikovaného článku.
Příběh začíná u iniciativy Prenatal-to-Three (PPI) nadace Bill & Melinda Gates Foundation na University of Washington. Hledal jsem každý možný dataset, který by mohl informovat strategii nadace v oblasti předškolního vzdělávání. Jedním ze zdrojű, na které jsem narazil, byla National Conference of State Legislatures (NCSL), která spravovala databázi sledující zákony o péči a vzdělávání v raném dětství ve všech 50 státech. Plné znění každého zákona bylo dostupné online—strojově čitelné, strukturované a pokrývající roky legislativní aktivity.
Napsal jsem program pro web scraping, který stáhl celou databázi: 9 272 záznamű od roku 2008 do roku 2018. Po vyčištění—odstranění návrhű, které zanikly bez projednání, deduplikaci záznamű objevujících se ve více fázích legislativního procesu a filtrování na návrhy s dostupným plným textem—analytický vzorek zahrnoval 3 203 unikátních návrhű zákonű, z nichž 2 396 mělo ukončenou legislativní cestu s definitivním výsledkem.
Otázka byla jednoduchá: co předpovídá, zda zákon o předškolním vzdělávání projde do platnosti? Tradiční přístup v politologii spočíval ve zkoumání charakteristik předkladatele—seniority, stranické příslušnosti, členství ve výborech. Nikdo se však nepodíval na to, co zákony ve skutečnosti říkají. Právě tady se vyplatil kurz bayesovské statistiky. Na plné texty legislativy jsem aplikoval Latent Dirichlet Allocation, abych odhalil latentní tematickou strukturu. LDA zachází s každým dokumentem jako se směsí témat a s každým tématem jako s distribucí nad slovy. Předem neví, jaká témata existují—odhaluje je ze vzorű spoluvýskytű v textu.
Algoritmus identifikoval řešení se šesti tématy jako nejlepší: objevily se dvě meta-priority, které jsme označili jako „ECE finance“ (zahrnující příjmy, výdaje a fiskální správu) a „ECE služby“ (zahrnující předškolní vzdělávání, péči o děti a zdravotní a sociální služby). Tato témata jsme validovali oproti expertním znalostem a stávající literatuře o politice raného dětství. Témata nebyla jen statisticky koherentní—přímo odpovídala skutečným liniím legislativní debaty.
Následně jsem použil Hierarchical Generalized Linear Models (HGLM) k predikci schválení zákona z tematických proporcí, s kontrolou charakteristik předkladatele a vnořené struktury dat (zákony uvnitř zákonodarcű uvnitř státű uvnitř rokű). Klíčovým zjištěním bylo, že zákony zaměřené na zdravotní a sociální služby, fiskální správu nebo výdaje měly větší pravděpodobnost schválení, zatímco zákony zaměřené na předškolní vzdělávání, péči o děti nebo příjmy měly pravděpodobnost nižší—a že legislativní efektivita předkladatele tento vztah moderovala. Vysoce efektivní zákonodárci dokázali prosadit zákony bez ohledu na téma; méně efektivní byli vydaní napospas obsahu.
Soojin Oh Park přinesla odbornou znalost dané oblasti—hluboké porozumění politice raného dětství, které nám umožnilo interpretovat a validovat témata, která algoritmus odhalil. Já jsem přinesl datovou pipeline, NLP a statistické modelování. Článek vyšel v časopise PLOS ONE v roce 2021 a podle našich informací představoval první aplikaci strojového učení a NLP metod na studium legislativy v oblasti předškolního vzdělávání.
Zcela odlišná aplikace těchto metod přišla v kontextu marketingové datové vědy: analýza efektivity marketingových výdajű napříč kanály (Google, Facebook, afiliáti) a doporučení optimální alokace rozpočtu. Dataset pokrýval 3 051 týdenních pozorování ve 26 geografických trzích během dvou let, s tržbami jako závislou proměnnou a výdaji a impresemi podle kanálű jako prediktory.
Metodologickou výzvou bylo, že marketingové efekty nejsou statické. Výdaje na Facebook tento týden mohou ovlivnit tržby příští týden. Výdaje na Google mohou vytěsňovat nebo doplňovat afiliátní imprese. Struktury zpoždění se liší podle kanálu a geografická heterogenita znamená, že co funguje na jednom trhu, nemusí fungovat na jiném. Jednoduchá regrese by toto vše minula.
Vybudoval jsem posloupnost stále sofistikovanějších modelű: sdružený OLS jako základní linie, fixní efekty pro kontrolu nepozorovatelné geografické heterogenity, hierarchické lineární modely umožňující variabilitu efektivity podle trhu, poté Grangerovy testy kauzality a vektorové autoregrese (VAR) k odkrytí temporální dynamiky a závislostí mezi kanály. Finální specifikací byl dynamický panelový model odhadnutý pomocí Generalized Method of Moments (Arellano–Bond), který současně zachytil persistenci tržeb, zpožděné marketingové efekty a nepozorovatelnou heterogenitu, a zároveň řešil endogenitu vznikající, když minulé tržby ovlivňují současné výdaje.
Analýza o 138 stranách ukázala, že Facebook byl nejefektivnějším kanálem (nejvyšší elasticita, nejsilnější zpožděné efekty) navzdory tomu, že měl přidělený nejmenší rozpočet—jasná chybná alokace. Google vykazoval kontraintuitivní negativní současné efekty, ale silné pozitivní zpožděné efekty, což naznačovalo, že jeho hodnota se materializuje v čase. Dynamický GMM překonával model s náhodnými koeficienty v přesnosti predikce ve všech 26 geografiích, s 52krát nižší prűměrnou chybou predikce. Doporučení pro realokaci rozpočtu přímo vyplývala z ekvimarginálního principu: přesunout výdaje směrem ke kanálu s nejvyšším marginálním výnosem na dolar, dokud se elasticity nevyrovnají.
Třetí linie práce se strojovým učením se objevila v projektu Early Achievers, kde výzvou nebyl text ani časové řady, ale chybějící data a vysoká dimenzionalita. S 947 dětmi vnořenými ve 156 třídách a masivní absencí dat napříč desítkami měr kvality tříd a výsledkű dětí jsem se obrátil k imputaci pomocí strojového učení: gradient boosting machines, random forests a LASSO, srovnávané s tradiční vícenásobnou imputací pomocí zřetězených rovnic (MICE). Desetinásobná křížová validace ukázala, kde která metoda překonávala ostatní—a kde ansámblový přístup přinášel nejdűvěryhodnější predikce mimo vzorek. Podrobnosti jsou na stránce Měření a modelování.
- Tematické modelování — Latent Dirichlet Allocation (LDA), distribuce dokument-téma a téma-slovo, výběr modelu pomocí koherence a shody
- Zpracování přirozeného jazyka — Web scraping, předzpracování textu, analýza legislativních textű ve velkém měřítku
- Ekonometrie časových řad — Vektorová autoregrese (VAR), Grangerova kauzalita, impulzní odezvy, dekompozice variance
- Dynamické panelové metody — Arellano–Bond GMM estimace, dynamické multiplikátory, výpočet dlouhodobých efektű
- Ansámblové metody — Gradient boosting, random forests, LASSO pro imputaci a výběr proměnných
- Bayesovské metody — Generativní pravděpodobnostní modely, posteriorní inference, porovnání modelű