Strojové učení & NLP — Nail Hassairi

Na doktorském studiu mi ekonomický PhD program dal solidní základy v ekonometrii a teorii. Ale nebylo mi to dost. Chtěl jsem porozumět metodám, které műj program neučil—a tak jsem je šel hledat po celé univerzitě.

Rozšiřování nástrojű

Během svého doktorátu na University of Washington jsem absolvoval kurzy daleko za hranicemi standardní ekonomické sekvence: bayesovskou statistiku, regresní splajny, prostorovou regresní analýzu, numerickou analýzu, hierarchické modelování, experimentální design a počítačové programování. Každý z těchto kurzű se později ukázal užitečný—některé okamžitě, jiné až o roky později. Kurz bayesovské statistiky mě mimo jiné seznámil s Latent Dirichlet Allocation, generativním pravděpodobnostním modelem pro odhalování skryté tematické struktury ve velkých kolekcích textu. V té době to byl jen další algoritmus. Během několika let se z něj stal základ publikovaného článku.

Text jako data: 4 000 zákonű

Příběh začíná u iniciativy Prenatal-to-Three (PPI) nadace Bill & Melinda Gates Foundation na University of Washington. Hledal jsem každý možný dataset, který by mohl informovat strategii nadace v oblasti předškolního vzdělávání. Jedním ze zdrojű, na které jsem narazil, byla National Conference of State Legislatures (NCSL), která spravovala databázi sledující zákony o péči a vzdělávání v raném dětství ve všech 50 státech. Plné znění každého zákona bylo dostupné online—strojově čitelné, strukturované a pokrývající roky legislativní aktivity.

Napsal jsem program pro web scraping, který stáhl celou databázi: 9 272 záznamű od roku 2008 do roku 2018. Po vyčištění—odstranění návrhű, které zanikly bez projednání, deduplikaci záznamű objevujících se ve více fázích legislativního procesu a filtrování na návrhy s dostupným plným textem—analytický vzorek zahrnoval 3 203 unikátních návrhű zákonű, z nichž 2 396 mělo ukončenou legislativní cestu s definitivním výsledkem.

Otázka byla jednoduchá: co předpovídá, zda zákon o předškolním vzdělávání projde do platnosti? Tradiční přístup v politologii spočíval ve zkoumání charakteristik předkladatele—seniority, stranické příslušnosti, členství ve výborech. Nikdo se však nepodíval na to, co zákony ve skutečnosti říkají. Právě tady se vyplatil kurz bayesovské statistiky. Na plné texty legislativy jsem aplikoval Latent Dirichlet Allocation, abych odhalil latentní tematickou strukturu. LDA zachází s každým dokumentem jako se směsí témat a s každým tématem jako s distribucí nad slovy. Předem neví, jaká témata existují—odhaluje je ze vzorű spoluvýskytű v textu.

Algoritmus identifikoval řešení se šesti tématy jako nejlepší: objevily se dvě meta-priority, které jsme označili jako „ECE finance“ (zahrnující příjmy, výdaje a fiskální správu) a „ECE služby“ (zahrnující předškolní vzdělávání, péči o děti a zdravotní a sociální služby). Tato témata jsme validovali oproti expertním znalostem a stávající literatuře o politice raného dětství. Témata nebyla jen statisticky koherentní—přímo odpovídala skutečným liniím legislativní debaty.

Následně jsem použil Hierarchical Generalized Linear Models (HGLM) k predikci schválení zákona z tematických proporcí, s kontrolou charakteristik předkladatele a vnořené struktury dat (zákony uvnitř zákonodarcű uvnitř státű uvnitř rokű). Klíčovým zjištěním bylo, že zákony zaměřené na zdravotní a sociální služby, fiskální správu nebo výdaje měly větší pravděpodobnost schválení, zatímco zákony zaměřené na předškolní vzdělávání, péči o děti nebo příjmy měly pravděpodobnost nižší—a že legislativní efektivita předkladatele tento vztah moderovala. Vysoce efektivní zákonodárci dokázali prosadit zákony bez ohledu na téma; méně efektivní byli vydaní napospas obsahu.

Soojin Oh Park přinesla odbornou znalost dané oblasti—hluboké porozumění politice raného dětství, které nám umožnilo interpretovat a validovat témata, která algoritmus odhalil. Já jsem přinesl datovou pipeline, NLP a statistické modelování. Článek vyšel v časopise PLOS ONE v roce 2021 a podle našich informací představoval první aplikaci strojového učení a NLP metod na studium legislativy v oblasti předškolního vzdělávání.

Optimalizace marketingového mixu

Zcela odlišná aplikace těchto metod přišla v kontextu marketingové datové vědy: analýza efektivity marketingových výdajű napříč kanály (Google, Facebook, afiliáti) a doporučení optimální alokace rozpočtu. Dataset pokrýval 3 051 týdenních pozorování ve 26 geografických trzích během dvou let, s tržbami jako závislou proměnnou a výdaji a impresemi podle kanálű jako prediktory.

Metodologickou výzvou bylo, že marketingové efekty nejsou statické. Výdaje na Facebook tento týden mohou ovlivnit tržby příští týden. Výdaje na Google mohou vytěsňovat nebo doplňovat afiliátní imprese. Struktury zpoždění se liší podle kanálu a geografická heterogenita znamená, že co funguje na jednom trhu, nemusí fungovat na jiném. Jednoduchá regrese by toto vše minula.

Vybudoval jsem posloupnost stále sofistikovanějších modelű: sdružený OLS jako základní linie, fixní efekty pro kontrolu nepozorovatelné geografické heterogenity, hierarchické lineární modely umožňující variabilitu efektivity podle trhu, poté Grangerovy testy kauzality a vektorové autoregrese (VAR) k odkrytí temporální dynamiky a závislostí mezi kanály. Finální specifikací byl dynamický panelový model odhadnutý pomocí Generalized Method of Moments (Arellano–Bond), který současně zachytil persistenci tržeb, zpožděné marketingové efekty a nepozorovatelnou heterogenitu, a zároveň řešil endogenitu vznikající, když minulé tržby ovlivňují současné výdaje.

Analýza o 138 stranách ukázala, že Facebook byl nejefektivnějším kanálem (nejvyšší elasticita, nejsilnější zpožděné efekty) navzdory tomu, že měl přidělený nejmenší rozpočet—jasná chybná alokace. Google vykazoval kontraintuitivní negativní současné efekty, ale silné pozitivní zpožděné efekty, což naznačovalo, že jeho hodnota se materializuje v čase. Dynamický GMM překonával model s náhodnými koeficienty v přesnosti predikce ve všech 26 geografiích, s 52krát nižší prűměrnou chybou predikce. Doporučení pro realokaci rozpočtu přímo vyplývala z ekvimarginálního principu: přesunout výdaje směrem ke kanálu s nejvyšším marginálním výnosem na dolar, dokud se elasticity nevyrovnají.

Strojové učení pro měření

Třetí linie práce se strojovým učením se objevila v projektu Early Achievers, kde výzvou nebyl text ani časové řady, ale chybějící data a vysoká dimenzionalita. S 947 dětmi vnořenými ve 156 třídách a masivní absencí dat napříč desítkami měr kvality tříd a výsledkű dětí jsem se obrátil k imputaci pomocí strojového učení: gradient boosting machines, random forests a LASSO, srovnávané s tradiční vícenásobnou imputací pomocí zřetězených rovnic (MICE). Desetinásobná křížová validace ukázala, kde která metoda překonávala ostatní—a kde ansámblový přístup přinášel nejdűvěryhodnější predikce mimo vzorek. Podrobnosti jsou na stránce Měření a modelování.

Tematické modelování — Latent Dirichlet Allocation (LDA), distribuce dokument-téma a téma-slovo, výběr modelu pomocí koherence a shody
Zpracování přirozeného jazyka — Web scraping, předzpracování textu, analýza legislativních textű ve velkém měřítku
Ekonometrie časových řad — Vektorová autoregrese (VAR), Grangerova kauzalita, impulzní odezvy, dekompozice variance
Dynamické panelové metody — Arellano–Bond GMM estimace, dynamické multiplikátory, výpočet dlouhodobých efektű
Ansámblové metody — Gradient boosting, random forests, LASSO pro imputaci a výběr proměnných
Bayesovské metody — Generativní pravděpodobnostní modely, posteriorní inference, porovnání modelű

Příklady

NLP a tematické modelování

ECE Legislative Success

LDA na 2 396 státních ECE zákonech z NCSL. Řešení se šesti tématy, HGLM pro predikci schválení, legislativní efektivita jako moderátor. Park & Hassairi, PLOS ONE 2021.

Marketingová ekonometrie

Marketing Mix Optimization

Dynamický panelový GMM, VAR, Grangerova kauzalita napříč 26 trhy. Elasticity kanálű, realokace rozpočtu pomocí ekvimarginálního principu. Analýza o 138 stranách, 2024.

ML pro imputaci

Early Achievers Validation

GBM, random forests, LASSO vs. MICE pro imputaci chybějících dat o kvalitě tříd. Desetinásobná křížová validace, 947 dětí ve 156 třídách.

Doktorské studium

Beyond the Curriculum

Bayesovská statistika, regresní splajny, prostorová regrese, numerická analýza, hierarchické modelování, experimentální design. University of Washington.