V horkých letních dnech pravděpodobně nikdo neoplývá myšlenkami, které by létaly kolem analýz a data miningu, zejména když člověk leží na pláži, sleduje západ slunce u moře a popíjí svůj osvěžující nápoj. Jo, také to děláte! Ale, počkat, počkat! Tour de France tady byla ve své velké slávě, přinášející vzrušující vzlety a pády cyklistů, s krásnými příběhy, které se budou ještě nějakou tu chvilku vyprávět
Díky velice zvláštnímu propojení mých kořenů a rodného města Petra "Tourminatora" Sagana, nezůstává pro mě Tour de France již 4. rokem bez povšimnutí. Pokaždé jsem ohromen nadlidskými výkony a vytrvalostí cyklistů v pekelně těžkých a dlouhých 21 dnech! Tour de France v roce 2015 byla opravdu velmi emotivní, nejenom díky působivým vítězstvím a nešťastným nehodám cyklistů ve žlutém dresu, ale také plná "konspiračních teorií" kvůli mimořádnému a zdrcujícímu nástupu jezdců stáje „Sky“. Tento druh zpravodajství mi připomněl staré časy v F1 v dobách před deseti lety.
Příklad z Formule 1: Data mining v jeho precizní podobě je přítomný ve Formuli 1 po celá desetiletí, ale za posledních 5 až 7 let učinil opravdu velký skok v prediktivním směru s „forecastingem“ v reálném čase. Pro představu – je těžké uvěřit, že během jednoho závodu, pouze jediné jedno auto společně s řidičem pošlou do týmového datacentra přibližně 250 TB! Co přesně to znamená v praxi?
Představte si přibližně 300 notebooků a jejich hard-disky přeplněné údaji a daty z jednoho vozu F1 za méně než 2 hodiny! A to nejsou data přeposlané a uložené někde v záloze. V tom spočívá celý trik: Veškerá data jsou již při zaslání a ukládání zpracována v reálném čase a poté přehodnocena z hlediska nejrůznějších scénářů, na základě kterých se rozhoduje o nejvhodnější taktice pro závod. Výstupní informace jsou mnoha typů, například: ideální nastavení předního křídla, kterou část zatáčky si vybrat a dokonce, jak přesně přibržďovat v zatáčce a tím šetřit pneumatiky v každém kole. Každá část monopostu je do posledního puntíku a detailu měřena a přetavena do podoby dat. Do „big-data“ trychtýře dále padají informace o počasí a stavu vozovky, nezapomíná se ani na záznamy o zdravotní kondici jezdce v průběhu závodu – tedy tep, tlak, hydratace atd. Celý „balík“ informací i jeho výsledek je již standardizován do jakési formy receptu díky předchozím testům před i během sezóny. Zároveň se ovšem doplňuje o pravidelné předzávodní testy ve čtvrtek a v pátek před sobotní kvalifikací.
Prediktivní analytika je všude přítomná v podhoubí výpočetních procesů jako malý, zato velice tvrdě pracující čip, který sbírá data, analyzuje ty nejlepší scénáře a překrývá výsledky s předpokládanými výstupy. Tímto způsobem se snaží nastavit opravdu ty nejvhodnější i s odhadovanými chybami. Reálný a velice zářný příklad jsme spatřili při „povstání“ týmu Red Bull, který vstupoval do Formule 1 v roce 2005 jako outsider, ale který se již zakrátko, po několika sezónách, proměnil v dominující závodní monstrum Formule 1!
Pokud se zamyslíte, kolik různých faktorů, má opravdu reálný dopad na výkon cyklisty vedle povětrnostních podmínek (vítr, déšť, teplota, vlhkost, atd.), stavu a nastavení jeho kola až po typy silnic a jejich denních změn. Dejte si vše dohromady, spočítejte, poskládejte na sebe, vynásobte, a je to! Dostáváte obrovské množství robustních vstupů pro váš model, připravený k vypuštění do prediktivního software. Přísadami do této „husté směsi“ jsou nekonečné tréninky a nasbíraná data. Výsledky se ukládají a pak ve vhodnou chvíli vyjmou a analyzují v reálném čase závodu. Prověří se výsledky, zkontroluje aktuální výkonnost jezdců a pak s vysokou pravděpodobností připraví možné scénáře, jakým způsobem je potřeba toho kterého cyklistu zatížit v danou chvíli pro dosažení požadovaného vítězství. Sportovní ředitel se po přečtení a vyhodnocení všech výstupů musí rozhodnout, jak postavit a kombinovat jednotlivé cyklisty společně, vhodně pro každý scénář, který se v 21-denním náročném závodě může vyskytnout. Stejná „data miningová“ pravidla byla uplatňována v NBA zkušenějšími trenéry při hledání kombinace hráčů pro budování týmů - při přestupech i práci s úplnými nováčky. V průběhu několika let byly zaznamenány působivé výsledky. Věřím, že pokud posadíte k datům zdatné analytiky (dnes se jim říká „data scientists“) a oni připraví a odvedou svůj díl práce na jednotlivých scénářích, které pak dokáží interpretovat, následuje diskuse se sportovním ředitelem, který disponuje odbornými znalostmi a expertízou v daném spotu, pak musí společně rozhodně najít cestu k budování silného a konzistentního týmu pro jakékoliv světový cyklistický závod „World Tour“! Lze pak uhodnout, že vše výše uvedené bylo a je již dlouhodobě aplikováno v rámci týmu Sky a jejich tréninkového cyklistického programu, který je svým pojetím světový unikát. Kromě všeho, co bylo uvedeno výše, si navíc jezdci pravidelně kontrolují své vlastní zdravotní záznamy a tělesnou námahu. Údaje o zdravotním stavu si velmi pozorně všímají na přístrojích zabudovaných na kolech v každé části etapy. Pokud tedy chcete sledovat Chris Frooma opravdu hodně zblízka, nedívejte se na jeho data a údaje o výkonnosti, podívejte se na postupy a procedury, jak a kde s k čemu se jeho data používají. Zároveň jak jsou jednotlivé výsledky interpretovány pro další strategii týmu v každé etapě Tour! To je jediný způsob, jak opravdu detailně poznat a v hloubce odhalit „kouzlo“ ohromujícího představení "Froominatora“ na Tour de France!
Učíme naše studenty, jak se historie dříve mylně domnívala a nesprávné pojmenovala nové objevy i průkopnické myšlenky čarodějnictvím. Legrační je, že když se něco takového stane v podnikání, všichni okamžitě poukazují na tzv. best practice - „nejlepší praxi“. Např. když Tesco realizovalo velice robustní „data mining“ a analýzy v 90. letech nad zákaznickými daty společné s Dunnhumby při stavení svého věrnostního programu. Clubcard, výsledky byly mimořádné a vystřeli Tesco do první ligy světového maloobchodu. Mnozí pak následovali stejnou analytickou cestu v Retailu. Dnes se může zdát, že data přichází z nebe („Sky“), ale lépe je říct asi přímo z „mračna“ (Cloudu). Věřím, že v následujících letech (možná už příští rok), mnohé profesionální cyklistické týmy budou nuceny vyhodnocovat data v reálném čase pro nejvhodnější scénáře etapy - tedy zapracovat prediktivní analytiku v průběhu celé sezony do své sportovní rutiny. A pak i v Tinkoff-Saxo takto podpořit „Tourminatora“ dosáhnout vítězství v Tour de France, aby dále nenavyšoval jeho osobní rekord druhých míst. Nikdo si pak nedovolí při sledování masivní dominance některého z týmu nazývat výkon čarodějnictvím a ani náhodou se neodváží křičet "doping"!
DATA mesh
Šárka Kotlaříková
24. června 2024