O trochu lepší je věštění z křišťálové koule zvané marketingový výzkum. Prostě se spotřebitelů zeptáme, kolik budou kupovat! Bohužel to není tak prosté. Prvním kamenem úrazu je důvěryhodnost výzkumné agentury včetně jejích tazatelů. Občas si někdo místo zdlouhavého vyptávání prostě vyplní dotazník sám. Pokud je nepocitový jeden tazatel z deseti, statistika si s tím poradí. Pokud je ale kamenem úrazu sám spotřebitel a má nerealistický odhad ohledně toho, co bude kupovat příští rok, ani sebelepší agentura vás nezachrání. Určitou validitu má jen kontinuální tracking (opakovaný výzkum), kdy porovnáváme nákupní záměry z měsíce na měsíc a sledujeme rozdíly. Ideální? Zdaleka ne, podívejme se na chytřejší nápady.
Základem strojového učení v predikci poptávky je analýza časových řad. To znamená, že vezmeme minulé prodeje, například seskupené po týdnu a začneme s nimi kouzlit. První a nejlehčí je nalézt trend. Ten se hledá lehce a nalezne ho po chvilce bádání i manažer s Excelem. V poptávce jdoucí nahoru nebo dolu není žádná věda. Dále máme obvykle sezonalitu – o vánocích prodáme více sáněk než v létě. A nakonec již zmíněný klouzavý průměr – kdy průměrujeme poslední období.
Pokročilá statistika začíná u modelů ARIMA, které počítají závislost aktuálních hodnot na hodnotách minulých. Například pokud zvyšující se prodeje znamenají, že se budou prodeje zvyšovat dále, ARIMA tuto závislost zachytí a zobrazí. Pokud zvyšující se prodeje naopak znamenají brzký pád, model to zachytí rovněž. Přidáme-li k ARIMĚ sezónní složku, máme základní funkční model, který má v sobě trend, sezonalitu a základ v konzervativních klouzavých průměrech.
Alternativou k statistické metodě ARIMA je exponenciální vyrovnávání (ETS – exponential smoothing), což je metoda, která dává pozdějším pozorováním větší váhu než těm historickým. V základní podobě jde o primitivní vážený průměr, ale pokud k ní přidáme sezonalitu a trend, jde opět o životaschopný koncept.
V posledních letech se k vousatým metodám časových řad přidala řada úplně nových – pokud začneme tou nejvíce cool – časové řady se predikují pomocí neuronových sítí. Mnohé jiné nové metody však jsou vylepšením těch starších. Zlepšilo se poznání správných intervalů sezonality, modely se obohatily o nové transformace, mnohé metody zažily update i v řešení svých chyb odhadu. Častý přístup je, že se prostě pustí nový optimalizační algoritmus k eliminaci chyb toho stávajícího. Jiné metody spouští stovky rozhodovacích stromů pro zjištění všech možných znáhodněných scénářů. Ještě další metody se snaží postihnout všechny kalendářní období najednou – od roku po sekundu, a využít i ty nejmenší informace ukryté v datech.
Zhruba posledních 10 let je nejlepší praxí – implementovanou v špičkových softwarových balíčcích – prostě spočítat všechny existující metody s všemi možnými parametry a automaticky vyhodnotit na testovacím období, která metoda dává nejlepší výsledky. Název pro takovýto postup je zcela fantastický – Automatic Machine Learning neboli automatické strojové učení, zkráceně Auto ML. Každá z pokročilých metod je automaticky pouštěna s mnoha různými parametry, například s různě složitou sezonalitou, s trendem a bez trendu, s učením na krátkém i dlouhém období. Následně se na testovacím období, pouští kontrola předpovědí oproti realitě. Za testovací období již musíme mít nasbíraná data, abychom mohli (opět automaticky) vyhodnotit, která metoda se nejlépe trefuje. Nakonec se vybere model do produkce, který dělá nejméně chyb z hlediska přesnosti předpovědí.
Konečným výsledem je zapojení do objednávkového systému. Zde je třeba ještě odlišit, které zboží jde například přes oceán lodí, které jde letadlem, a které kamionem například z Kolína. Skladová dostupnost je jedním z hlavních parametrů poptávky, protože kdo z nás rád objednává neskladové zboží? Cílem optimalizace je pořád ještě staromódní maximalizace zisku, takže je třeba dbát ohled na to, abychom měli zboží, které se firmě vyplatí prodávat. Na druhou stranu ani spokojenost zákazníka není k zahození, takže je třeba naskladnit i položky, které vedou k uspokojení zákaznických potřeb i za cenu malé marže. Pokud například papírnictví nebude mít levné papíry, zákazníci se obrátí jinam, a neprodá se ani související zboží, na kterém se již vydělává.
P.S.: Můj tajný tip na metodu, která překoná všechny AutoML metody na děravých a neúplných datech, vám řeknu až na schůzce.
Jan Matoušek – data scientista již od roku 2003. Od roku 2009 vede svoji firmu Data Mind a řeší s firmami využití dat. Postavil desítky prediktivních i segmentačních modelů, které vydělávají skutečné peníze pro klienty.
DATA mesh
Šárka Kotlaříková
24. června 2024