Data ve velkém měřítku

V Amazonu data nebyla výběrem. Byla to celá populace—každé kliknutí, každý nákup, každá nabídka prodejce, každá sekunda každého dne. Výzvou nikdy nebylo, zda máte dostatek dat. Výzvou bylo, zda vaše metody přežijí střet s nimi.

Buy box Amazonu

V roce 2014 jsem nastoupil do týmu Customer Behavior Analytics v Amazonu jako výzkumný ekonom. Pracoval jsem pod vedením Patricka Bajariho—hlavního ekonoma Amazonu a jednoho z nejcitovanějších ekonometrů na světě—společně s Harrym Paarchem, Konstantinem Golyaevem a Gregorym Duncanem. Projektem byl buy box: algoritmus, který rozhoduje, čí nabídka získá tlačítko „Přidat do košíku“, když na stejném produktu soutěží více prodejců.

Buy box je bezesporu nejdůležitější alokační mechanismus na internetu. Každý den směruje miliardy dolarů v obchodu. Starší systém používal ručně laděné koeficienty—„magická čísla“—nastavené obchodními analytiky, kteří je upravovali na základě intuice a výsledků A/B testů. Úkolem ekonomického týmu bylo nahradit je ekonometricky odhadnutými parametry ze strukturálního modelu spotřebitelské volby.

Model byl logitový diskrétní model volby podle Manskiho. Zákazníci přicházející na stránku produktu čelí sadě nabídek prodejců, které se liší cenou, rychlostí doručení, reputací prodejce a kanálem plnění. Model odhaduje pravděpodobnost, že zákazník zvolí každou nabídku—nebo se rozhodne nenakoupit vůbec—jako funkci těchto atributů. „Vnější alternativa“—pravděpodobnost odchodu—je to, co z něj dělá Manskiho model na rozdíl od standardního podmíněného logitu.

Mým prvním úkolem byl test proveditelnosti. Bajari chtěl vědět, zda R zvládne odhad v měřítku Amazonu. Odpověđ po týdnech testování zněla ne. Data byla příliš velká, iterace příliš pomalé a správa paměti v R nezvládala potřebné maticové operace. Přesunuli jsme odhadovou pipeline do Staty, která to zvládla. Byla to jedna z prvních lekcí o rozdílu mezi akademickým a produkčním výpočetním měřítkem—lekce, která formovala vše, co jsem dělal poté.

Regularizace a omezení

Surové odhady koeficientů z logitového modelu v tomto měřítku jsou zašumělé. Koeficient může naznačovat, že zákazníci preferují pomalejší doručení nebo vyšší ceny—artefakty kolinearity, řídkých buněk nebo endogenity v surových datech. V akademickém článku byste tyto anomálie zaznamenali a pokračovali dál. V produkčním systému, který směruje miliardy dolarů, to není možné.

Řešením byl post-estimační regularizační krok: úloha kvadratického programování, která vezme surové koeficienty a najde nejbližší sadu parametrů splňujících ekonomická omezení—monotonii (zákazníci preferují nižší ceny, rychlejší doručení, lepší prodejce) a box omezení (žádný koeficient nesmí být absurdně velký či malý). Účelová funkce minimalizuje čtvercovou vzdálenost od původních odhadů za těchto omezení, řešenou pomocí optimalizačního engine FICO Xpress přes modelovací jazyk Mosel.

Zkušenost s překladem ekonomické intuice do formálních matematických omezení—a sledování, jak komerční solver najde přípustné řešení za sekundy v prostorech parametrů, jejichž ruční prohledání by trvalo hodiny—byla formativní. Bylo to poprvé, co jsem pracoval na průsečíku ekonometrie a operačního výzkumu, a regularizované parametry šly do produkce jako součást algoritmu buy boxu, který obsluhoval stovky milionů zákazníků.

Experimentování ve velkém

Nový ekonometrický model nebyl jen nasazen. Byl testován proti staršímu systému v kontrolovaném experimentu—A/B testu, kde část živého provozu byla směrována na nový model, zatímco zbytek pokračoval na starých magických číslech. Mou rolí bylo monitorovat experiment: sledovat konverzní míry, tržby na relaci, míry závad a metriky spokojenosti zákazníků napříč treatment a kontrolou.

Měřítko experimentování v Amazonu se nepřipodobňuje ničemu v akademickém výzkumu. „Malý“ test může zahrnovat miliony zákaznických relací denně. Statistická významnost není problém—vše je významné. Výzvou je detekce smysluplných rozdílů v obchodních metrikách při zohlednění tisíců matoučích faktorů živého tržiště: sezónních efektů, promo akcí, výkyvů zásob, chování konkurence. Předsedal jsem týdennímu setkání nad výsledky, kde jsme prezentovali zjištění vedoucímu pracovníkovi na úrovni L6—amazonský ekvivalent senior ředitele—a doporučovali, zda experiment rozšířit, upravit, nebo ukončit.

Samotná infrastruktura experimentování byla zjevním. Každá zákaznická relace byla označena svým zařazením do treatment skupiny. Každá následná akce—kliknutí, přidání do košíku, nákup, vrácení—byla propojena zpět k tomuto zařazení prostřednictvím toho, co Amazon nazývá „trigger recording“. Trigger se spustí v okamžiku, kdy je zákazník vystaven treatment, a vše, co následuje, je přiřazeno této expozici. Analytická pipeline zpracovává miliardy těchto párů trigger–výsledek do souhrnných statistik, které přistanou na stole vedoucího. Porozumění této pipeline—jejím předpokladům, způsobům selhání, slepým místům—bylo stejně důležité jako porozumění ekonometrii.

Federální datové sady

Dovednosti, které jsem získal v Amazonu—práce s daty, která se nevejdou do paměti, budování automatizovaných pipeline, přemýšlení o výpočetní efektivitě—se přímo přenesly do mé následné práce s velkými federálními datovými sadami. American Community Survey Public Use Microdata Sample (ACS PUMS) od Census Bureau obsahuje miliony záznamů na úrovni jednotlivců. Common Core of Data (CCD) pokrývá každou veřejnou školu ve Spojených státech. Administrativní data ACF CCDF sledují zapojování do dotací na péči o děti ve všech státech v průběhu času.

Pro státní přehledové listy, které jsem vytvářel v rámci projektu PPI, jsem vybudoval automatizované analytické pipeline v R a Statě, které stažily mikrodata ACS PUMS, aplikovaly váhy designu výběru, vypočítaly populační odhady podle příjmové skupiny, etnicity a metropolitního statusu, sloučily je s údaji o zapojování CCDF a daty NIEER o předškolních programech a produkovaly formátovaný výstup připravený k vizualizaci. Pipeline běžela pro každý cílový stát—Washington, Oregon, Tennessee—se státně specifickými parametry, ale společným analytickým rámcem.

Toto je neokouzlující srdce empirického výzkumu: budování infrastruktury, která proměňuje surová data ve spolehlivé odpovědi. Nejvíce času nezabírá ekonometrie ani identifikační strategie. Je to datové inženýrství—čištění, spojování, validace, pipeline, která musí fungovat správně pokaždé, protože vše další na ní závisí.

Mosel / FICO Xpress — Kvadratické programování pro regularizaci koeficientů s omezeními monotonie a box omezeními
Stata — Odhad logitových modelů ve velkém měřítku, analýza komplexních šetření s váhami designu, automatizované tabulační pipeline
R — Vizualizace dat (ggplot2), zpracování mikrodat ACS PUMS, statistické výpočty
SQL / AWS — Dotazy do datového skladu Amazonu, výpočetní instance EC2 pro odhadové úlohy, úložiště dat S3
Experimentační platforma Amazonu — Infrastruktura A/B testování, trigger recording, zařazování do treatment skupin, výpočet metrik ve velkém měřítku

Příklady

Produkční ekonometrie

Model volby pro buy box

Logitový diskrétní model volby podle Manskiho pro buy box Amazonu. Odhadnutý na miliardách zákaznických relací. Parametry regularizovány kvadratickým programováním. Amazon, 2014–2015.

Optimalizace

Regularizace koeficientů

Kvadratický program vynucující monotonii a box omezení na logitových koeficientech. Minimalizuje odchylku od surových odhadů za ekonomických předpokladů. Amazon, 2014–2015.

Automatizovaná pipeline

Pipeline státních přehledových listů

Mikrodata ACS PUMS → vážené odhady → sloučení CCDF/NIEER → formátovaný výstup. Reprodukovatelné napříč státy. Cultivate Learning, 2019–2020.

Experimentování

A/B testování buy boxu

Monitorování živých experimentů na tržišti porovnávajících ekonometrický model se starším systémem. Miliony relací denně. Týdenní briefing pro vedení. Amazon, 2015.