Přestože pracujeme většinu času na datech o zákaznících, rozhodli jsme se odskočit si do sféry státních dat, abychom mohli klientská data zkombinovat s tím, co má být veřejně dostupné. Stát vlastní spoustu zajímavých dat o firmách, má spočítané lidi ve všech regionech a má samozřejmě k dispozici databázi adres. Tohle všechno jsou data, která se hodí i pro komerční praxi. Předešlu, že jako data miningovou firmu nás zajímají data v původní podrobné podobě a nespokojíme se s přehledovými tabulkami.
Hrátky se státními daty začínají a my žhavíme stroje. Poměrně neproblematickou část tvoří Sčítání lidu, které ČSÚ vydal zcela příkladně na DVD za rozumný poplatek. S trochou šikovnosti se z DVD dají dokonce vydolovat klíčové tabulky a přelít do databáze. Výborně, oproti minulému Sčítání lidu, kde bylo třeba údaje dolovat z kontaktních osob ČSÚ, je to velký pokrok.
Pokračujeme Registrem ekonomických subjektů, známým pod zkratkou RES. Pro marketing rychlé reakce by bylo vhodné vědět o změnách ve firmách. Stát se rozhodl tyto informace poskytovat pomocí velmi technického standardu XML, a dodává k tomu bohužel dosti roztříštěnou dokumentaci. Poměrně nízko také staví limity na to, o kolika firmách můžeme žádat aktuální informaci. Každý den se můžete zeptat na 1.000 firem, pokud ovšem zvládnete černou magii jazyka XML. Velmi zdatný programátor vám pak z tohoto rozhraní za bratru 100.000 Kč vykouzlí řešení, které je v praxi skutečně využitelné. Druhou cestou je nákup celé databáze RES na DVD, ovšem opět to není zadarmo.
Třetím uhelným kamenem pro naši práci s daty bude databáze adres. Tu stát servíruje v přátelském balení 6.253 jednotlivých souborů, zřejmě abychom se příliš nenudili.
Dobrá zpráva je, že státní aparát udělal za posledních deset let velký kus práce, a spousta dat je skutečně dostupná. Česká veřejná data se však potácí mezi zcela otevřeným přístupem USA, kde je k dispozici k přímému stažení 184.000 otevřených databází a přístupem takového Chorvatska, kde se o otevřených datech teprve básní.
Až se všichni navrátíme z dovolených, státní data definitivně zlomíme. Klientům tak postupně zprostředkujeme ta data, na která mají zákonný nárok. Pokud máte i vy zájem vytěžit potenciál z veřejných dat, řekněte nám o konzultaci. Pracovat se státními daty je sice těžší než nabourat databázi Penzijní společnosti Komerční banky, ale jde to.
Publikováno v časopise Direkt
DATA mesh
Šárka Kotlaříková
24. června 2024