Datová kvalita pro zbytek z nás

O datové kvalitě sice existuje dostatek materiálů, ty jsou však určeny jen akademikům a pár profesionálům za vysokými zdmi korporací. V tomto článku se pokusím problematiku datové kvality přiblížit i zbytku z nás. Nebudeme mluvit o datové architektuře. Toto je článek pouze pro ty, pro něž má slovo „hash“ spíše význam měkké drogy než databázového algoritmu.

Autor: Jan Matoušek, 12. března 2014


Vítejte v informační éře, kde se giganti Microsoft, Google a ostatní předhání v tom, kdo nashromáždí kolik dat. Pokud jsou data tvrdou měnou současnosti, má běžná česká firma dost starostí, aby neměla v kapse jen pár zmuchlaných bankovek. Platit jimi bude při strategických rozhodnutích i při běžné obsluze zákazníků.

Deset zásad datové kvality

Ačkoli v datové oblasti nejsou striktně daná přikázání, určitých zásad se samozřejmě dobrat můžeme. Představíme si jen deset z nich.

1. Datová kvalita je zdarma

Špičkoví konzultanti v datové oblasti tvrdí, že kvalitu dat pořídíme zadarmo. Je to do určité míry pravda, ovšem není to pravda věčná. Kvalitní data si zařídíme zdarma, pokud jsme schopni myslet na kvalitu dat při zavedení prvního datového systému. Když všechno dobře nastavíme, zajistíme si skutečně kvalitní data za stejnou cenu, za kterou má méně poučená konkurence datový zmatek. Sleva na datovou kvalitu se ale poskytuje jen na začátku rozvoje firmy. Pokud řešíme datovou kvalitu v momentě, kdy se nám nashromáždilo 85 různých verzí databáze v 40-ti různých systémech, bude naopak datová kvalita velmi drahá.

2. Kontrolujte data

Ačkoli tohle se zdá jako ta vůbec nejjednodušší věc, není tomu tak. Ve spoustě jinak osvícených firem data prostě nekontrolují. Běžná praxe je o nic se nestarat a řešit kvalitu dat až v případě, že generální s hrůzou zjistí, že neví kolik má zákazníků. Aby se to nestalo, je třeba mít pod kontrolou:

3. Kvalita lidí

Kvalita dat má přímý vztah s kvalitou lidí, kteří je tvoří. Pokud jsou to vaši zaměstnanci, kdo zapisují data, situace je relativně snadná – učiňte je zodpovědnými za kvalitu dat.  Pokud si budou alespoň myslet, že je kontrolujete, budou se trochu snažit. Pokud je budete skutečně kontrolovat, začnou se dít s kvalitou dat skutečné divy. Vhodné je, aby u každého zápisu bylo viditelně uvedeno, kdo ho zapsal. To samo o sobě dost pomůže. U e-shopů tvoří část dat systémy a část zákazníci. Ačkoli si myslíte, že zákazníky již nelze kontrolovat, opak je pravdou. Vhodným nastavením systému registrace můžete ušetřit více než polovinu chyb.

4. Používejte číselníky

Obvykle není nutné, aby každý operátor nebo zákazník datloval zvlášť značky automobilů, nebo města. Na centrálním registru vozidel si myslí opak, a pro značku vozidla používali dlouhá léta volné textové pole namísto seznamu značek. Výsledkem je značka automobilů ŠOA a další šotky. Pokud předem víte, jakých hodnot může zadávaný údaj nabývat, nikdy ho nenechte zapisovat ručně, ale připravte si seznam platných hodnot, ze kterých se bude vybírat. Čas neušetříte jen zadavateli dat, ale i analytikům připravujícím reporty.

Obrázek: Výpis z oficiálního registru vozidel, který používá pro značku vozidla volné textové pole (dodnes volně ke stažení na MVČR)

5. Omezte hodnoty

Poměrně často potkávám v databázích kmety narozené několik set let po Kristovi například v roce 196 či 197. Výjimkou nejsou ani lidé narození po roce 2100, kteří se zřejmě zatoulali z výpravy Návštěvníků. Pokud nefandíte sci-fi ani spiritismu, omezte data na lidských 100 let. Při přechodu na nové systémy vám to ušetří dost starostí. Kandidátů na omezení hodnot je samozřejmě v databázích daleko více. Pokud auto s najetým milionem kilometrů je v reálném světě raritou, ve světě databází jde o celkem běžný překlep. Jakékoli číselné pole, které nemá omezené hranice, má tendenci pomocí překlepů nabývat přímo astronomických hodnot. Byl jsem svědkem, jak jedna taková „menší chybka“ v počtu nul vyřadila z provozu systémy za desítky miliónů. Nereálná hodnota tehdy způsobila společnosti citelné ztráty.

6. Duplikujte je a množte je (nebo vlastně ne)

Je každý zákazník zaregistrován několikrát? Tahle věc má obvykle původ ve špatném nastavení systémů na vstupu. Například, když se každý zákazník registruje při každém svém nákupu znova. Není to jeho chyba, ale chybné nastavení registrace. Ačkoli duplicity v databázích měly vymřít v osmdesátých letech, jsou naživu a daří se jim dobře. Jedna banka mi například nedávno poslala 4x zduplikovanou příchozí platbu, a pak byla nucena zařizovat si opravu.

Obrázek: Typický příklad duplikace zákazníka v e-shopu (Příklad je upraven)

6. Duplikujte je a množte je (nebo vlastně ne)

Tohle je duplicitní titulek. Měli ho smazat, ale editor měl zrovna dovolenou. Možná takhle vypadá i vaše databáze.

7. Dokumentujte data

Nic není tak nudné jako psát o datech, o kterých přece každý ví, co v nich je. Alespoň pět minut po jejich vzniku. Za pět let může být situace jiná. Datovým strukturám může rozumět pár zamračených vyvolených s nespolehlivou lidskou pamětí. Nespoléhejte na jejich dobrou náladu. 

8. Udržujte číselníky

Kromě dokumentace toho, co je v databázi za data, je třeba také udržovat číselníky hodnot a to ve všech jejich stavech k určitému datu. Znamenal nějaký kód v minulosti něco jiného? Pak musíte zaznamenat co přesně znamenal a kdy to bylo, jinak vaše databáze kvapem ztrácí hodnotu.

9. Používejte data

Obvykle ta nejhorší data jsou ta, která nepoužíváte. Teprve používaná data mají nějakou hodnotu pro organizaci. A samozřejmě tam, kde pokulhává použití dat, není velký tlak na zvyšování datové kvality. Typický datový sklad se tak dostává do vzestupné nebo sestupné spirály. Buď se používá a roste tlak na jeho kvalitu, nebo se nepoužívá a jeho kvalita se postupně snižuje k nule. Nepoužívaná data jsou jako auto odložené několik sezon na dvorku, půjdou jen velmi těžko „nastartovat“.

10. Předvídejte, co chtějí zákazníci

Spousta dat ukazuje špatná čísla, či je pro reporting a výkaznictví vysloveně zavádějící. Ještě jsem se ovšem nesetkal s daty, která by se nedala použít pro data mining, čili dolování souvislostí z dat. Při přípravě dat dokážeme většinu chyb obejít a získáme data set, který sice není přesný, ale docela dobře odlišuje jednotlivé zákazníky například podle hodnoty pro firmu. I data se spoustou chyb lze poté použít například pro segmentaci zákazníků a pro určení těch nejhodnotnějších zákazníků, se kterými se vyplatí komunikovat. 

Publikováno v časopise Computer

Tyto webové stránky používají k poskytování svých služeb soubory Cookies. Používáním těchto webových stránek souhlasíte s použitím souborů Cookies.
Nastavení Souhlasím
Souhlas můžete odmítnout zde.
×
Nastavení cookies

Zde máte možnost přizpůsobit soubory cookies dle kategorií, jak vyhovují nejlépe Vašim preferencím.

Technické cookies

Technické cookies jsou nezbytné pro správné fungování webové stránky a všech funkcí, které nabízí a nemohou být vypnuty bez zablokování funkcí stránky. Jsou odpovědné mj. za uchovávání produktů v košíku, přihlášení k zákaznickému účtu, fungování filtrů, nákupní proces nebo ukládání nastavení soukromí. Z tohoto důvodu technické cookies nemohou být individuálně deaktivovány nebo aktivovány a jsou aktivní vždy

Analytické cookies

Analytické cookies nám umožňují měření výkonu našeho webu a našich reklamních kampaní. Jejich pomocí určujeme počet návštěv a zdroje návštěv našich internetových stránek. Data získaná pomocí těchto cookies zpracováváme anonymně a souhrnně, bez použití identifikátorů, které ukazují na konkrétní uživatelé našeho webu. Díky těmto cookies můžeme optimalizovat výkon a funkčnost našich stránek.

Preferenční cookies

Preferenční cookies umožňují, aby si webová stránka zapamatovala informace, které mění, jak se webová stránka chová nebo jak vypadá. Je to například Vámi preferovaný jazyk, měna, oblíbené nebo naposledy prohlížené produkty apod. Díky těmto cookies Vám můžeme doporučit na webu produkty a nabídky, které budou pro Vás co nejzajímavější.

Marketingové cookies

Marketingové cookies používáme my nebo naši partneři, abychom Vám dokázali zobrazit co nejrelevantnější obsah nebo reklamy jak na našich stránkách, tak na stránkách třetích subjektů. To je možné díky vytváření tzv. pseudonymizovaného profilu dle Vašich zájmů. Ale nebojte, tímto profilováním zpravidla není možná bezprostřední identifikace Vaší osoby, protože jsou používány pouze pseudonymizované údaje. Pokud nevyjádříte souhlas s těmito cookies, neuvidíte v reklamních sděleních obsah ušitý na míru Vašim zájmům.

DALŠÍ ČLÁNKY