Data Mining pro každého - Rozhovor Jana Matouška s Robertem Vlachem

Data Mining neboli získávání znalostí z databází již není jen doménou velkých firem. Pokročilé datové služby si nyní může dovolit každý. Přinášíme čtenářům našeho blogu nezkrácený rozhovor o data miningu, který se odehrál dnes na facebooku. Autorem otázek je Robert Vlach - expert na podporu podnikání. Odpovědi zajišťoval Jan Matoušek, data miner a podnikatel v tomto oboru. Přeji příjemné čtení.

Autor: Jan Matoušek, 3. září 2010


Honzo zdravím.
Dobrý den Roberte.

Jako laik si pod dolováním dat představím získávání nových informací ze stávajících souborů dat. Chápu to správně?
Ano, jde o získávání něčeho, čemu říkáme akční znalost. To znamená, že naše práce končí, když místo mrtvého datového skladu máte znalosti, co komu prodat, a kolik různých typů zákazníků s jakými charakteristikami obsluhujete. Aby byla znalost akční, přiřazujeme k jednotlivým koncovým zákazníkům jejich profily – segmenty, a pravděpodobnosti nákupu různých věcí.

Co od Vás firmy nejčastěji požadují? Jak vypadá typická zakázka?
Typickou zakázkou je například analýza nákupního košíku. Při ní se díváme na souvislosti mezi produkty, a doporučujeme zákazníkům zboží, které souvisí s tím, jež právě prohlížejí. Podobně jako amazon pak dokážete doporučit svým zákazníkům příslušenství, doplněk, nebo jinou související položku v katalogu.

Většinu čtenářů by asi nyní zajímalo, kolik taková služba stojí? Jaká je například Vaše hodinová sazba?
Hodinové sazby jsou v rozmezí 600-1250 Kč. Typický projekt stojí od 10.000 Kč do 100.000 Kč. Ceny jsou nastaveny jako znatelně nižší, než mají konkurenti v  oboru. Podstatnější než absolutní cena je ale návratnost vložených prostředků, která je obvykle několikanásobná.

Jak vypadá výstup práce data-minera? Porozumí prezentaci výsledků i laický zadavatel?
Ano, součástí naší práce je doručit výsledek těm, kdo si ho objednali, ve srozumitelné podobě. Management musí výsledky pochopit, a věřit jim. To je podmínkou dalšího použití výsledků uvnitř firmy, nelze proto vysvětlování přeskočit ani vynechat. 

Oblast dolování dat je velmi specifická. Kolik máte v Česku konkurentů a jak těžké je získávat zakázky?
Velké konkurenty můžete spočítat na prstech ruky, malých je o něco více. Cestou, jak získávat zakázky u velkých firem, jsou dohody s jinými firmami, které doručují ostatní části marketingové komunikace. Druhou cestou je rozšiřování trhu o střední firmy, které zatím data mining nemají.

Hádám, že většina zákazníků je na svá data citlivá. Přenášíte data k sobě, a pokud ano, jak jsou zabezpečena?
Ano, u většiny projektů je praktické data přenést k nám. Pro přenos dat používáme šifrovací programy, takže data při přenosu nemůže nikdo zachytit ve srozumitelné podobě. Data jsou u nás opět uložena na šifrovaných discích, takže v případě krádeže hardwaru jsou opět pro zloděje nepoužitelná. Data pro data mining obvykle neobsahují žádné osobní údaje typu jméno, email apod., takže je nelze využít jinak než ve spojitosti s databází klienta.

Dostává zákazník nějakou smluvní garanci, že jeho data nebudou kompromitována?
Zákazníci obvykle požadují smluvní garance o důvěrnosti dat a předaných informací. Poslední dobou tuto smluvní garanci nabízíme aktivně. 

V našem katalogu navolnenoze.cz je mnoho expertů z různých oborů. Pro které z nich může být data miner užitečný jako smluvní partner či subdodavatel?
Jako vitální se ukazuje spojení s experty na přímý marketing a reklamu. Řekl bych, že provozovat marketing bez čísel a měření je nesmysl. Můžete spustit kampaň, ale neznáte její výsledek nad jednotlivými komunikačními kanály, tím pádem v delším horizontu přicházíte o peníze. Pokud neznáte své zákazníky a souvislosti mezi produkty, taktéž přicházíte o finance. Marketéři nás tedy potřebují, a naopak naše služby se neobejdou bez funkčního marketingu, interního nebo externího.
Vedle toho pro neziskový sektor děláme průzkumy potřebnosti jejich služeb a audity jejich fungování. Je příjemné si občas odpočinout od přísné logiky financí a zkoumat na chvíli něco „obecně prospěšného“.

Informatiky by možná zajímalo, s jak velkými soubory dat umíte pracovat? Terabajty, petabajty, exabajty? :)
Normální česká firma si vystačí s gigabajty dat (:-). Pouze největší giganti na českém trhu mají jeden nebo několik terabajtů. Ovšem jak je dnes extrémně levné terabajt uložit, je pořád extrémně drahé provozovat terabajtovou databázi tak, abyste dostával odpovědi na své dotazy v řádu sekund. Pro účely data miningu je vhodné si z extrémně velkých databází udělat vzorek, na kterém se znalosti vytvoří a pak aplikují zpět na velkou databázi.
V Čechách tedy neexistuje soubor dat, se kterým bychom nedokázali efektivně pracovat kvůli jeho velikosti. Občas si „nesportovně“ pomůžeme vytvořením vzorku dat v nějaké výpočetně náročné fázi. Cílem naší činnosti není totiž roztočit zbytečně co nejvíce pevných disků, ale naopak doručit znalosti v rozumné době.  


A poslední otázka: Můžete uvést nějaký případ z vlastní praxe, který byl něčím výjimečný, kuriózní nebo jinak zajímavý?
Stává se, že odhalíme vzorec chování, který nikdo nehledal. Například z rutinního vyhodnocení spotřebitelské soutěže se jednou stala detektivka, když jsem zjistil, že určití uživatelé dokážou obejít všechny kontrolní mechanismy této soutěže, a generovat falešné body, které ovšem vedly ke zcela reálným výhrám. Odhalení vedlo management k okamžitému zpřísnění kontrolních mechanismů soutěže. 

Honzo díky za zajímavý rozhovor. Věřím, že to pomohlo přiblížit Vaši práci širší veřejnosti, ať se daří!
Díky za příležitost a za skvělé otázky.

Doplňující otázky můžete Janu Matouškovi položit přímo sem do diskuse.

Tyto webové stránky používají k poskytování svých služeb soubory Cookies. Používáním těchto webových stránek souhlasíte s použitím souborů Cookies.
Nastavení Souhlasím
Souhlas můžete odmítnout zde.
×
Nastavení cookies

Zde máte možnost přizpůsobit soubory cookies dle kategorií, jak vyhovují nejlépe Vašim preferencím.

Technické cookies

Technické cookies jsou nezbytné pro správné fungování webové stránky a všech funkcí, které nabízí a nemohou být vypnuty bez zablokování funkcí stránky. Jsou odpovědné mj. za uchovávání produktů v košíku, přihlášení k zákaznickému účtu, fungování filtrů, nákupní proces nebo ukládání nastavení soukromí. Z tohoto důvodu technické cookies nemohou být individuálně deaktivovány nebo aktivovány a jsou aktivní vždy

Analytické cookies

Analytické cookies nám umožňují měření výkonu našeho webu a našich reklamních kampaní. Jejich pomocí určujeme počet návštěv a zdroje návštěv našich internetových stránek. Data získaná pomocí těchto cookies zpracováváme anonymně a souhrnně, bez použití identifikátorů, které ukazují na konkrétní uživatelé našeho webu. Díky těmto cookies můžeme optimalizovat výkon a funkčnost našich stránek.

Preferenční cookies

Preferenční cookies umožňují, aby si webová stránka zapamatovala informace, které mění, jak se webová stránka chová nebo jak vypadá. Je to například Vámi preferovaný jazyk, měna, oblíbené nebo naposledy prohlížené produkty apod. Díky těmto cookies Vám můžeme doporučit na webu produkty a nabídky, které budou pro Vás co nejzajímavější.

Marketingové cookies

Marketingové cookies používáme my nebo naši partneři, abychom Vám dokázali zobrazit co nejrelevantnější obsah nebo reklamy jak na našich stránkách, tak na stránkách třetích subjektů. To je možné díky vytváření tzv. pseudonymizovaného profilu dle Vašich zájmů. Ale nebojte, tímto profilováním zpravidla není možná bezprostřední identifikace Vaší osoby, protože jsou používány pouze pseudonymizované údaje. Pokud nevyjádříte souhlas s těmito cookies, neuvidíte v reklamních sděleních obsah ušitý na míru Vašim zájmům.

DALŠÍ ČLÁNKY