Každý je tak trochu datový vědec

Autor: Jan Matoušek, 17. ledna 2017

Co je nového za posledních 13 let v prediktivní analytice a v data miningu? Po dlouhé kariéře v data miningu se poohlédnu za tím, co je za posledních 13 let nového a co se naopak nezměnilo vůbec. V nejpokročilejším datovém odvětví se změnili klienti, technologie i kulisy všeobecného přijetí. Starý úkol poznat a přesvědčit zákazníky o koupi zůstal nezměněn. 

Na klientské frontě není žádný klid

Zatímco v roce 2003 byl datamining velmi podivným oborem, který se krčil někde v mínus pátém patře, dnes jsou data v kurzu. Dříve měl člověk pocit, že je v pořádku data mining ignorovat a šmahem ho odmítat s poukazem na vlastní intuici a obchodní talent.
DataScienceLogo
Obrázek: D. Calvin Andrus, Ph.D. (Creative Commons)
„Čas oponou trhnul — a změněn svět!“ (Jan Neruda)
Data mining a data science jsou nyní na palubě, cool a trendy. Pro nás analytiky, co to myslíme od počátku vážně, se zas tak moc nezměnilo. Změnil se ovšem zákazník. Nyní se místo ignorace poctivě snaží porozumět datovým procesům a také se trochu povozit na vlně datových vědců a být také tak trochu datař. To je dozajista příjemnější, protože se častěji než do technických meziprostorů dostáváme do jednacích síní s ušlechtilým dřevem a kvalita nabízené kávy se pro nás na jednáních výrazně zlepšila. Obě polohy vnímání data miningu (ignorace i uctívání) však vedou k občasným chybám v rozhodování. Dříve například docházelo k odmítnutí metod data minigu bez ohledu na jejich vhodnost a přesnost. Nyní však dochází k tomu, že nadšenci implementují postupy, kterým nerozumí a pro které nemají marketingové či jiné produkční využití. Data mining je in, a tak ho občas má i ten, kdo neumí odeslat dvě různá sdělení svým zákazníkům současně, nebo dokonce i ten, kdo s konceptem zákazníka nepracuje v marketingu vůbec. I v pokročilé době totiž existují provozy, kde se počítá jen s kusy a produkty, familiárně přezdívanými SKU. Bez konceptu zákazníka ovšem dává málokterá zákaznická analytika smysl. Skončí u obsluhování poněkud duchařských kategorií jako jsou nejasné „views“ či zcela virtuální „bounces“. I v tom případě může občas data mining přinést pozitivní výsledky, ovšem lepší je to se zákazníkem, návštěvníkem a potenciálním kupcem. 
V roce 2016 panuje snaha stahovat datové vědce dovnitř firem. Tahle snaha má výhodu v udržení klíčového know-how uvnitř společností, ovšem také nevýhodu v tom, že profesně může vést k určitému zakrnění znalostí uvnitř korporací ovládaných „zažitými“ (rozuměj zkostnatělými) postupy bez nových trendů a vlivů. I pouhé srovnání s vývojem v ostatních oborech pak citelně chybí a přináší ho obvykle až externí konzultant či data miner. 

Hardwarová revoluce

Když jsme v České republice s data miningem začínali, nebylo korporátní IT připraveno na to, že kancelářská profese může vyžadovat špičkový hardware. I minimální hardwarové požadavky programů pro analytiky byly tehdy ze strany IT zhusta ignorovány z pouhé nevědomosti či v rámci plošného šetření. Analytici v roce 2005 byli potupně označování za klikací „business usery“ bez nároku na speciální zacházení a byli zcela odkázaní na kancelářský hardware a spojení s obskurním serverem, který byl již ovšem v datovém centru v Počáplích. 
IT získalo respekt k datovým vědcům až kolem roku 2015, teprve když se analytici naučili programovat a získali tak s IT společný jazyk či dva. 
Nyní máme ovšem to štěstí, že operační paměť (RAM) je v zásadě zadarmo a výpočetní výkon je levný. „So what“ dalo by se říci, protože 60 % výkonu končí v neoptimalizovaných postupech pro výpočty a skladování dat. Nový hardware nám prostě umožňuje dělat chyby rychleji a méně úzkostlivě. Jen ve výjimečných případech nový HW umožnil dělat věci předtím nevídané. 
Příkladem dříve nemožného je masivní a všudypřítomné sledování lidí na atomární úrovni jejich pohybu. To nyní činí kromě Googlu a telekomunikací již i nejposlednější autor Androidích aplikací (ve věku 15ti let) a lokalizačních dat je tak skutečně na světě mnoho. Většina z nich se však válí zcela ladem a čeká v horším případě na šikovného hackera, nebo v případě lepším na legitimní marketingové využití. Právě chytré využití informací je úzkým hrdlem datového businessu, poté co se podařilo odstranit hardwarová a softwarová omezení. Spoustu firem pořád ještě hromadí datová sila, aniž by mělo business model pro jejich využití a monetizaci. Pořád vidíme primitivní použití dat známé z dob prvních GSM telefonů. To spočívá v mechanice reklamního sdělení navázaného na lokalitu tím nejvíce přímočarým způsobem ve stylu – „jdete kolem naší kavárny, stavte se na kafe“. Takovouto formu lokalizace ovšem nakonec zvládne i dřevěná cedule. Sofistikovanějších aplikací typu moderní taxislužby Uber, kde lokalizace má nezastupitelnou úlohu integrovanou přímo do služby, je jako šafránu. Komodita lokalizačních dat ještě čeká na svoje pokročilé zákazníky z oblasti outdoor reklamy, logistiky či obchodních sítí. 

Algoritmické instrumentarium 

Dříve nevídané jsou také hluboké neuronové sítě, které se v populárních časopisech připodobňují k modelu lidského mozku. Tyto sítě jsou velmi dobré pro rozpoznávání obrázků nebo obličejů, pro marketingovou rutinu hledání nejlepších zákazníků se však nehodí. 
Některé nástroje nestárnou, a tak, jako není dobré řešit všechny řemeslné práce sbíječkou, ani v oblasti data miningu a prediktivní analytiky není vždy ten nejsilnější nástroj tím nejlepším. Kvalitní rozhodovací strom například dokáže pořád velmi dobře simulovat rozhodování naštvaného zákazníka, který potřebuje opustit svého mobilního operátora, protože k tomu má dobře definovaný důvod. Rozhodnutí nakoupit je rozhodnutím na základě součtu motivů, proto nám při něm velmi dobře poslouží letitá regresní rovnice, jednoduše sčítající vlivy vedoucí k nákupu. Naproti tomu hluboká neuronová síť je v současném stavu na úrovni kognitivních schopností nedokonalého zvířecího mozku a poslouží nám nejlépe k rozlišení obrázku psa od obrázku člověka, ale do strukturovaných oblastí je nevhodná jako opilý úředník do underwritingu banky.

Staré dobré nástroje 

Z hlediska marketingové rutiny jako jsou RFM modely hodnotící potenciál zákazníka, segmentace nebo churn prediction se stalo následující: děláme o trochu složitější modely trochu rychleji a nemusíme se tolik zatěžovat nedostatkem úložného prostoru disků, RAM či výpočetní kapacity. Vývoj v oblasti hardwaru je již dvacet let hnán herním průmyslem, protože detailní vykreslení krvežíznivých monster ve hrách je samozřejmou prioritou lidstva při vývoji nových čipů. My analytici s vděkem parazitujeme na herních procesorech a v poslední době i na herních grafických kartách, protože hardware určený pro korporát je věčně mimo osu cena/výkon. V tom ovšem nenastala žádná změna od roku 1995, kdy jsem první Pentium pořídil pro slavnou hru DOOM a teprve později použil pro statistické výpočty. Herní hardware mi umožnil dělat chyby rychleji než spolužákům, kteří nehráli hry.
Postupně integrujeme nové instrumentárium, aniž bychom příliš rychle zahazovali kvalitní a prověřené nástroje. Mezi zajímavé koncepty, které testujeme, patří lesy složené z více rozhodovacích stromů, hluboké neuronové sítě i „sbory modelů“ (ensamble) složené z více druhů modelů, jež hlasují o výsledné hodnotě. Pro naše klienty ovšem při srovnatelném výkonu preferujme stabilní a transparentní řešení, která občas překvapí svou jednoduchostí a jsou spojením zdravého rozumu s algoritmickou přesností. Co nemáme rádi, jsou přetrénované a příliš rozvětvené modely pro banality, na které stačí jednodušší rovnice a o něco více hodin provozu našich mozků. Nejlepší neuronovou síť nosíme postaru pořád na krku a nejraději jsme, když nalezneme v lidském chování pár jednoduchých pravidel, která fungují dlouhé roky a neztrácí přesnost. To ovšem neznamená, že by se mělo marketingové a obchodní rozhodování řídit čistě intuicí. Intuitivní postup vede k tomu, že nic nevíme přesně. Například nový obchodník jen těžko odhadne, jestli je jisté, že zákazník s námi zůstane už po druhém nákupu, nebo musíme přesvědčit zákazníka k třetímu nákupu s cílem razantně posílit dlouhodobou věrnost. Není to ani akademická věda ani věštění z koule, ale, po třinácti letech, normální řemeslo.
 
Jan Matoušek, hlavní analytik, Data Mind
Zkrácená verze byla publikována v časopise MarketingSalesMedia
Tyto webové stránky používají k poskytování svých služeb soubory Cookies. Používáním těchto webových stránek souhlasíte s použitím souborů Cookies.
Nastavení Souhlasím
Souhlas můžete odmítnout zde.
×
Nastavení cookies

Zde máte možnost přizpůsobit soubory cookies dle kategorií, jak vyhovují nejlépe Vašim preferencím.

Technické cookies

Technické cookies jsou nezbytné pro správné fungování webové stránky a všech funkcí, které nabízí a nemohou být vypnuty bez zablokování funkcí stránky. Jsou odpovědné mj. za uchovávání produktů v košíku, přihlášení k zákaznickému účtu, fungování filtrů, nákupní proces nebo ukládání nastavení soukromí. Z tohoto důvodu technické cookies nemohou být individuálně deaktivovány nebo aktivovány a jsou aktivní vždy

Analytické cookies

Analytické cookies nám umožňují měření výkonu našeho webu a našich reklamních kampaní. Jejich pomocí určujeme počet návštěv a zdroje návštěv našich internetových stránek. Data získaná pomocí těchto cookies zpracováváme anonymně a souhrnně, bez použití identifikátorů, které ukazují na konkrétní uživatelé našeho webu. Díky těmto cookies můžeme optimalizovat výkon a funkčnost našich stránek.

Preferenční cookies

Preferenční cookies umožňují, aby si webová stránka zapamatovala informace, které mění, jak se webová stránka chová nebo jak vypadá. Je to například Vámi preferovaný jazyk, měna, oblíbené nebo naposledy prohlížené produkty apod. Díky těmto cookies Vám můžeme doporučit na webu produkty a nabídky, které budou pro Vás co nejzajímavější.

Marketingové cookies

Marketingové cookies používáme my nebo naši partneři, abychom Vám dokázali zobrazit co nejrelevantnější obsah nebo reklamy jak na našich stránkách, tak na stránkách třetích subjektů. To je možné díky vytváření tzv. pseudonymizovaného profilu dle Vašich zájmů. Ale nebojte, tímto profilováním zpravidla není možná bezprostřední identifikace Vaší osoby, protože jsou používány pouze pseudonymizované údaje. Pokud nevyjádříte souhlas s těmito cookies, neuvidíte v reklamních sděleních obsah ušitý na míru Vašim zájmům.

DALŠÍ ČLÁNKY