O datové kvalitě sice existuje dostatek materiálů, ty jsou však určeny jen akademikům a pár profesionálům za vysokými zdmi korporací. V tomto článku se pokusím problematiku datové kvality přiblížit i zbytku z nás. Nebudeme mluvit o datové architektuře. Toto je článek pouze pro ty, pro něž má slovo „hash“ spíše význam měkké drogy než databázového algoritmu.
Vítejte v informační éře, kde se giganti Microsoft, Google a ostatní předhání v tom, kdo nashromáždí kolik dat. Pokud jsou data tvrdou měnou současnosti, má běžná česká firma dost starostí, aby neměla v kapse jen pár zmuchlaných bankovek. Platit jimi bude při strategických rozhodnutích i při běžné obsluze zákazníků.
Ačkoli v datové oblasti nejsou striktně daná přikázání, určitých zásad se samozřejmě dobrat můžeme. Představíme si jen deset z nich.
Špičkoví konzultanti v datové oblasti tvrdí, že kvalitu dat pořídíme zadarmo. Je to do určité míry pravda, ovšem není to pravda věčná. Kvalitní data si zařídíme zdarma, pokud jsme schopni myslet na kvalitu dat při zavedení prvního datového systému. Když všechno dobře nastavíme, zajistíme si skutečně kvalitní data za stejnou cenu, za kterou má méně poučená konkurence datový zmatek. Sleva na datovou kvalitu se ale poskytuje jen na začátku rozvoje firmy. Pokud řešíme datovou kvalitu v momentě, kdy se nám nashromáždilo 85 různých verzí databáze v 40-ti různých systémech, bude naopak datová kvalita velmi drahá.
Ačkoli tohle se zdá jako ta vůbec nejjednodušší věc, není tomu tak. Ve spoustě jinak osvícených firem data prostě nekontrolují. Běžná praxe je o nic se nestarat a řešit kvalitu dat až v případě, že generální s hrůzou zjistí, že neví kolik má zákazníků. Aby se to nestalo, je třeba mít pod kontrolou:
Kvalita dat má přímý vztah s kvalitou lidí, kteří je tvoří. Pokud jsou to vaši zaměstnanci, kdo zapisují data, situace je relativně snadná – učiňte je zodpovědnými za kvalitu dat. Pokud si budou alespoň myslet, že je kontrolujete, budou se trochu snažit. Pokud je budete skutečně kontrolovat, začnou se dít s kvalitou dat skutečné divy. Vhodné je, aby u každého zápisu bylo viditelně uvedeno, kdo ho zapsal. To samo o sobě dost pomůže. U e-shopů tvoří část dat systémy a část zákazníci. Ačkoli si myslíte, že zákazníky již nelze kontrolovat, opak je pravdou. Vhodným nastavením systému registrace můžete ušetřit více než polovinu chyb.
Obvykle není nutné, aby každý operátor nebo zákazník datloval zvlášť značky automobilů, nebo města. Na centrálním registru vozidel si myslí opak, a pro značku vozidla používali dlouhá léta volné textové pole namísto seznamu značek. Výsledkem je značka automobilů ŠOA a další šotky. Pokud předem víte, jakých hodnot může zadávaný údaj nabývat, nikdy ho nenechte zapisovat ručně, ale připravte si seznam platných hodnot, ze kterých se bude vybírat. Čas neušetříte jen zadavateli dat, ale i analytikům připravujícím reporty.
Obrázek: Výpis z oficiálního registru vozidel, který používá pro značku vozidla volné textové pole (dodnes volně ke stažení na MVČR)
Poměrně často potkávám v databázích kmety narozené několik set let po Kristovi například v roce 196 či 197. Výjimkou nejsou ani lidé narození po roce 2100, kteří se zřejmě zatoulali z výpravy Návštěvníků. Pokud nefandíte sci-fi ani spiritismu, omezte data na lidských 100 let. Při přechodu na nové systémy vám to ušetří dost starostí. Kandidátů na omezení hodnot je samozřejmě v databázích daleko více. Pokud auto s najetým milionem kilometrů je v reálném světě raritou, ve světě databází jde o celkem běžný překlep. Jakékoli číselné pole, které nemá omezené hranice, má tendenci pomocí překlepů nabývat přímo astronomických hodnot. Byl jsem svědkem, jak jedna taková „menší chybka“ v počtu nul vyřadila z provozu systémy za desítky miliónů. Nereálná hodnota tehdy způsobila společnosti citelné ztráty.
Je každý zákazník zaregistrován několikrát? Tahle věc má obvykle původ ve špatném nastavení systémů na vstupu. Například, když se každý zákazník registruje při každém svém nákupu znova. Není to jeho chyba, ale chybné nastavení registrace. Ačkoli duplicity v databázích měly vymřít v osmdesátých letech, jsou naživu a daří se jim dobře. Jedna banka mi například nedávno poslala 4x zduplikovanou příchozí platbu, a pak byla nucena zařizovat si opravu.
Obrázek: Typický příklad duplikace zákazníka v e-shopu (Příklad je upraven)
Tohle je duplicitní titulek. Měli ho smazat, ale editor měl zrovna dovolenou. Možná takhle vypadá i vaše databáze.
Nic není tak nudné jako psát o datech, o kterých přece každý ví, co v nich je. Alespoň pět minut po jejich vzniku. Za pět let může být situace jiná. Datovým strukturám může rozumět pár zamračených vyvolených s nespolehlivou lidskou pamětí. Nespoléhejte na jejich dobrou náladu.
Kromě dokumentace toho, co je v databázi za data, je třeba také udržovat číselníky hodnot a to ve všech jejich stavech k určitému datu. Znamenal nějaký kód v minulosti něco jiného? Pak musíte zaznamenat co přesně znamenal a kdy to bylo, jinak vaše databáze kvapem ztrácí hodnotu.
Obvykle ta nejhorší data jsou ta, která nepoužíváte. Teprve používaná data mají nějakou hodnotu pro organizaci. A samozřejmě tam, kde pokulhává použití dat, není velký tlak na zvyšování datové kvality. Typický datový sklad se tak dostává do vzestupné nebo sestupné spirály. Buď se používá a roste tlak na jeho kvalitu, nebo se nepoužívá a jeho kvalita se postupně snižuje k nule. Nepoužívaná data jsou jako auto odložené několik sezon na dvorku, půjdou jen velmi těžko „nastartovat“.
Spousta dat ukazuje špatná čísla, či je pro reporting a výkaznictví vysloveně zavádějící. Ještě jsem se ovšem nesetkal s daty, která by se nedala použít pro data mining, čili dolování souvislostí z dat. Při přípravě dat dokážeme většinu chyb obejít a získáme data set, který sice není přesný, ale docela dobře odlišuje jednotlivé zákazníky například podle hodnoty pro firmu. I data se spoustou chyb lze poté použít například pro segmentaci zákazníků a pro určení těch nejhodnotnějších zákazníků, se kterými se vyplatí komunikovat.
Publikováno v časopise Computer
DATA mesh
Šárka Kotlaříková
24. června 2024