Autor: Jan Matoušek, 17. ledna 2017
Co je nového za posledních 13 let v prediktivní analytice a v data miningu? Po dlouhé kariéře v data miningu se poohlédnu za tím, co je za posledních 13 let nového a co se naopak nezměnilo vůbec. V nejpokročilejším datovém odvětví se změnili klienti, technologie i kulisy všeobecného přijetí. Starý úkol poznat a přesvědčit zákazníky o koupi zůstal nezměněn.
Na klientské frontě není žádný klid
Zatímco v roce 2003 byl datamining velmi podivným oborem, který se krčil někde v mínus pátém patře, dnes jsou data v kurzu. Dříve měl člověk pocit, že je v pořádku data mining ignorovat a šmahem ho odmítat s poukazem na vlastní intuici a obchodní talent.
Obrázek: D. Calvin Andrus, Ph.D. (Creative Commons)
„Čas oponou trhnul — a změněn svět!“ (Jan Neruda)
Data mining a data science jsou nyní na palubě, cool a trendy. Pro nás analytiky, co to myslíme od počátku vážně, se zas tak moc nezměnilo. Změnil se ovšem zákazník. Nyní se místo ignorace poctivě snaží porozumět datovým procesům a také se trochu povozit na vlně datových vědců a být také tak trochu datař. To je dozajista příjemnější, protože se častěji než do technických meziprostorů dostáváme do jednacích síní s ušlechtilým dřevem a kvalita nabízené kávy se pro nás na jednáních výrazně zlepšila. Obě polohy vnímání data miningu (ignorace i uctívání) však vedou k občasným chybám v rozhodování. Dříve například docházelo k odmítnutí metod data minigu bez ohledu na jejich vhodnost a přesnost. Nyní však dochází k tomu, že nadšenci implementují postupy, kterým nerozumí a pro které nemají marketingové či jiné produkční využití. Data mining je in, a tak ho občas má i ten, kdo neumí odeslat dvě různá sdělení svým zákazníkům současně, nebo dokonce i ten, kdo s konceptem zákazníka nepracuje v marketingu vůbec. I v pokročilé době totiž existují provozy, kde se počítá jen s kusy a produkty, familiárně přezdívanými SKU. Bez konceptu zákazníka ovšem dává málokterá zákaznická analytika smysl. Skončí u obsluhování poněkud duchařských kategorií jako jsou nejasné „views“ či zcela virtuální „bounces“. I v tom případě může občas data mining přinést pozitivní výsledky, ovšem lepší je to se zákazníkem, návštěvníkem a potenciálním kupcem.
V roce 2016 panuje snaha stahovat datové vědce dovnitř firem. Tahle snaha má výhodu v udržení klíčového know-how uvnitř společností, ovšem také nevýhodu v tom, že profesně může vést k určitému zakrnění znalostí uvnitř korporací ovládaných „zažitými“ (rozuměj zkostnatělými) postupy bez nových trendů a vlivů. I pouhé srovnání s vývojem v ostatních oborech pak citelně chybí a přináší ho obvykle až externí konzultant či data miner.
Hardwarová revoluce
Když jsme v České republice s data miningem začínali, nebylo korporátní IT připraveno na to, že kancelářská profese může vyžadovat špičkový hardware. I minimální hardwarové požadavky programů pro analytiky byly tehdy ze strany IT zhusta ignorovány z pouhé nevědomosti či v rámci plošného šetření. Analytici v roce 2005 byli potupně označování za klikací „business usery“ bez nároku na speciální zacházení a byli zcela odkázaní na kancelářský hardware a spojení s obskurním serverem, který byl již ovšem v datovém centru v Počáplích.
IT získalo respekt k datovým vědcům až kolem roku 2015, teprve když se analytici naučili programovat a získali tak s IT společný jazyk či dva.
Nyní máme ovšem to štěstí, že operační paměť (RAM) je v zásadě zadarmo a výpočetní výkon je levný. „So what“ dalo by se říci, protože 60 % výkonu končí v neoptimalizovaných postupech pro výpočty a skladování dat. Nový hardware nám prostě umožňuje dělat chyby rychleji a méně úzkostlivě. Jen ve výjimečných případech nový HW umožnil dělat věci předtím nevídané.
Příkladem dříve nemožného je masivní a všudypřítomné sledování lidí na atomární úrovni jejich pohybu. To nyní činí kromě Googlu a telekomunikací již i nejposlednější autor Androidích aplikací (ve věku 15ti let) a lokalizačních dat je tak skutečně na světě mnoho. Většina z nich se však válí zcela ladem a čeká v horším případě na šikovného hackera, nebo v případě lepším na legitimní marketingové využití. Právě chytré využití informací je úzkým hrdlem datového businessu, poté co se podařilo odstranit hardwarová a softwarová omezení. Spoustu firem pořád ještě hromadí datová sila, aniž by mělo business model pro jejich využití a monetizaci. Pořád vidíme primitivní použití dat známé z dob prvních GSM telefonů. To spočívá v mechanice reklamního sdělení navázaného na lokalitu tím nejvíce přímočarým způsobem ve stylu – „jdete kolem naší kavárny, stavte se na kafe“. Takovouto formu lokalizace ovšem nakonec zvládne i dřevěná cedule. Sofistikovanějších aplikací typu moderní taxislužby Uber, kde lokalizace má nezastupitelnou úlohu integrovanou přímo do služby, je jako šafránu. Komodita lokalizačních dat ještě čeká na svoje pokročilé zákazníky z oblasti outdoor reklamy, logistiky či obchodních sítí.
Algoritmické instrumentarium
Dříve nevídané jsou také hluboké neuronové sítě, které se v populárních časopisech připodobňují k modelu lidského mozku. Tyto sítě jsou velmi dobré pro rozpoznávání obrázků nebo obličejů, pro marketingovou rutinu hledání nejlepších zákazníků se však nehodí.
Některé nástroje nestárnou, a tak, jako není dobré řešit všechny řemeslné práce sbíječkou, ani v oblasti data miningu a prediktivní analytiky není vždy ten nejsilnější nástroj tím nejlepším. Kvalitní rozhodovací strom například dokáže pořád velmi dobře simulovat rozhodování naštvaného zákazníka, který potřebuje opustit svého mobilního operátora, protože k tomu má dobře definovaný důvod. Rozhodnutí nakoupit je rozhodnutím na základě součtu motivů, proto nám při něm velmi dobře poslouží letitá regresní rovnice, jednoduše sčítající vlivy vedoucí k nákupu. Naproti tomu hluboká neuronová síť je v současném stavu na úrovni kognitivních schopností nedokonalého zvířecího mozku a poslouží nám nejlépe k rozlišení obrázku psa od obrázku člověka, ale do strukturovaných oblastí je nevhodná jako opilý úředník do underwritingu banky.
Staré dobré nástroje
Z hlediska marketingové rutiny jako jsou RFM modely hodnotící potenciál zákazníka, segmentace nebo churn prediction se stalo následující: děláme o trochu složitější modely trochu rychleji a nemusíme se tolik zatěžovat nedostatkem úložného prostoru disků, RAM či výpočetní kapacity. Vývoj v oblasti hardwaru je již dvacet let hnán herním průmyslem, protože detailní vykreslení krvežíznivých monster ve hrách je samozřejmou prioritou lidstva při vývoji nových čipů. My analytici s vděkem parazitujeme na herních procesorech a v poslední době i na herních grafických kartách, protože hardware určený pro korporát je věčně mimo osu cena/výkon. V tom ovšem nenastala žádná změna od roku 1995, kdy jsem první Pentium pořídil pro slavnou hru DOOM a teprve později použil pro statistické výpočty. Herní hardware mi umožnil dělat chyby rychleji než spolužákům, kteří nehráli hry.
Postupně integrujeme nové instrumentárium, aniž bychom příliš rychle zahazovali kvalitní a prověřené nástroje. Mezi zajímavé koncepty, které testujeme, patří lesy složené z více rozhodovacích stromů, hluboké neuronové sítě i „sbory modelů“ (ensamble) složené z více druhů modelů, jež hlasují o výsledné hodnotě. Pro naše klienty ovšem při srovnatelném výkonu preferujme stabilní a transparentní řešení, která občas překvapí svou jednoduchostí a jsou spojením zdravého rozumu s algoritmickou přesností. Co nemáme rádi, jsou přetrénované a příliš rozvětvené modely pro banality, na které stačí jednodušší rovnice a o něco více hodin provozu našich mozků. Nejlepší neuronovou síť nosíme postaru pořád na krku a nejraději jsme, když nalezneme v lidském chování pár jednoduchých pravidel, která fungují dlouhé roky a neztrácí přesnost. To ovšem neznamená, že by se mělo marketingové a obchodní rozhodování řídit čistě intuicí. Intuitivní postup vede k tomu, že nic nevíme přesně. Například nový obchodník jen těžko odhadne, jestli je jisté, že zákazník s námi zůstane už po druhém nákupu, nebo musíme přesvědčit zákazníka k třetímu nákupu s cílem razantně posílit dlouhodobou věrnost. Není to ani akademická věda ani věštění z koule, ale, po třinácti letech, normální řemeslo.
Jan Matoušek, hlavní analytik, Data Mind
Zkrácená verze byla publikována v časopise MarketingSalesMedia