Open source nástroje a data mining

Na odborných konferencích nebo při své data miningové praxi se setkávám s otázkami na možnosti využití open source softwarových nástrojů pro data mining v podnikovém prostředí. Tazatelé někdy vyslovují názor, že nekomerční software umožňuje tvorbu lepších modelů než mnohé komerční produkty. Aniž bych se pokoušela o důkladný rozbor problematiky výběru softwaru, uvedu k tomu několik poznámek.

Autor: Nikola Kaspříková, 8. února 2010


Nejprve trochu ideologický komentář k pojmům open source a data mining.

Open source...

Kategorie komerční, nekomerční, bezplatný, open source, v licenci GPL a podobně mohou být v poněkud složitějších vztazích, než se může na první pohled zdát. Zjevně například může existovat nekomerční software (ve smyslu oprávněně získaný a použitelný bezplatně), který není open source nebo není přístupný úpravám a dalšímu šíření.

Výhodou open source software je především možnost do detailu se seznámit s algoritmy implementovanými v programu a v případě, že to licenční podmínky dovolují, často i možnost program dále podle potřeb upravovat a třeba i dále šířit. Například pro marketingové aplikace ale možná toto není tolik podstatné.

...a data mining

A co vlastně má znamenat data mining? Podle některých názorů takový pojem dokonce ani není opodstatněný: už dávno před tím, než se objevil pojem data mining (a kdy to vlastně bylo - snad to nebyl výsledek nějakého grantu Evropského společenství, v rámci kterého si několik větších firem připravilo část své propagační strategie, když dalo dohromady jakousi metodologii), tu bylo modelování, předpovídání nebo (volitelně statistická) analýza. Pojem data mining je podle některých bezobsažný, čistě marketingový koncept a pokud se cítíme býti Data Minery, tak bychom se mohli dostat do potíží.

Pokud někdo mluví o data miningu, často tím rozumí data mining v užším slova smyslu - už například příprava dat do procesu data miningu v tomto případě zahrnuta není, resp. na praktické aspekty přípravy dat nejsou až tolik sledované. Takové pojetí není výjimečné u zastánců open source nástrojů oblíbených v akademickém prostředí a mnohé akademické nástroje jsou prostředky méně přívětivými z hlediska přípravy dat. V jiném chápání může být data mining rozsáhlejší proces, některé jeho části potom mohou být podporovány softwarovými nástroji.

Požadavky na data mining software

Od kvalitního nástroje pro analýzy zahrnující analýzy dat očekávám vedle dalšího kvalitní podporu základního průzkumu a popisu dat - nějaké předběžné analýzy, výstup modelování snadno použitelný pro skórování,bez nutnosti převádět data do nějakého specifického prostředí, resp. formátu.
Myslím, že speciálně třeba v marketingových aplikacích nemá cenu mimořádně vysoce hodnotit přesnost vyvinutého modelu.

Často je vhodnější nějaký robustní a čitelný model. Mimochodem, když se diskutuje o "lepším modelu" - jaký to vlastně je? V praktických situacích nemusí být vhodné se snažit o "technicky dokonalý" model, viz například text Classifier Technology and the Illusion of Progress od Davida Handa.

Podstatným kritériem pro hodnocení analytického softwarového prostředí jsou požadavky na míru automatizace při jeho využívání. Některý program může být vhodnější pro méně poučenou nebo méně snaživou obsluhu, jiný program může být vhodnější pro kvalitního modeláře navíc s množstvím volného času.

Při výběru dodavatele i jiných než data miningových programů je dobrou praxí zkusit odhadnout, jaké jsou perspektivy z hlediska podpory a vývoje včetně oprav chyb. Přitom není zcela jasné, jestli je z tohoto pohledu výhodnější produkt velkého komerčního dodavatele nebo úspěšný a hojně využívaný open source nástroj.

Velmi dobře si pamatuji na rozhovor s panem ředitelem společnosti SPSS ČR o výhodách a nevýhodách open source (implicitně nekomerčních) nástrojů. Argumentem pro placené produkty měla být záruka podpory produktu. Nedlouho poté nám přišel do firmy, kde jsme měli licenci programu SPSS AnswerTree, dopis s roztomilým sdělením, že produkt již dodavatelskou firmou nebude dále vyvíjen a podporován a pokud se chce někdo dále věnovat pěstování stromků, může si zkusit koupit nějaký modul do statistického softwaru SPSS.

Když se pokusím o nějaký souhrn, tak při hodnocení, případně výběru softwarového produktu je myslím vhodné co nejpřesněji definovat požadavky a zvážit technické, personální a finanční možnosti prostředí, ve kterém by řešení mělo fungovat.

Pohled na trh

Z open source nástrojů mám v oblibě R, ale to je spíše prostředí pro výpočty a statistickou analýzu, případně tvorbu kvalitních grafických výstupů. Je to pro mě příjemný vysokoúrovňový programovací jazyk, k industrializovanému data miningu se R i podle autorů prostředí tolik nehodí. Pěkná diskuze vlastností a některých omezení R je dostupná v dokumentu Ross Ihaka, Duncan Temple Lang: Back to the Future: Lisp as a Base for a Statistical Computing System.

Z komerčních nástrojů pro data mining mne zaujal KXEN, byť nepatří k univerzálním nástrojům pro analýzu dat. Myslím, že ve větších společnostech se běžně pracuje s více analytickými programy najednou. Tím se dostáváme k otázkám výběru softwaru ve firmě a k tomu, jak se u toho lidé chovají, což je asi zajímavé téma (a bylo by možná ještě zajímavější uvažovat vlastnosti výběrových řízení v institucích rozdělujících takzvané "veřejné finance"), ale pro jinou úvahu.

Kdo je v současnosti a kdo bude v blízké nebo vzdálenější budoucnosti leaderem trhu v oblasti data mining softwaru? Které firmy jsou tradičními výrobci a jaký je jejich vztah k dodavatelům databázových řešení? Když si vybavím nedávnou akvizici společnosti SPSS firmou IBM, tak možná už těch samostatných "tradičních výrobců" tolik nezbylo. Vedle toho společnost SAS se tuším prezentuje i jako dodavatel datových skladů a BI řešení, což jsou prostředky založené na databázových technologiích.

Se zájmem sleduji, jak se poskytovatelé databázových systémů a řešení business intelligence účastní dění v oblasti modelování. Například společnost Microsoft má zřejmě již dlouho silný tým výzkumníků například v oblasti grafických modelů a tyto technologie integruje do svých produktů. Teradata vstoupila do technologického partnerství se společností SAS, předpokládám poté, co vlastní řešení Teradata Warehouse Miner nesplnilo některá očekávání. Společnost IBM si koupila firmu SPSS předpokládám především pro jiné účely než rozvoj řešení na zpracování dat z dotazníkových šetření.

Každopádně v prostředí s velkým objemem dat k analýzám bývá žádanou vlastností analytické zpracování dat přímo v databázi (in database) bez přetahování velkého množství dat třeba z datového skladu (resp. primárního datového úložiště) do nějaké aplikační databáze analytické aplikace.


 

Tyto webové stránky používají k poskytování svých služeb soubory Cookies. Používáním těchto webových stránek souhlasíte s použitím souborů Cookies.
Nastavení Souhlasím
Souhlas můžete odmítnout zde.
×
Nastavení cookies

Zde máte možnost přizpůsobit soubory cookies dle kategorií, jak vyhovují nejlépe Vašim preferencím.

Technické cookies

Technické cookies jsou nezbytné pro správné fungování webové stránky a všech funkcí, které nabízí a nemohou být vypnuty bez zablokování funkcí stránky. Jsou odpovědné mj. za uchovávání produktů v košíku, přihlášení k zákaznickému účtu, fungování filtrů, nákupní proces nebo ukládání nastavení soukromí. Z tohoto důvodu technické cookies nemohou být individuálně deaktivovány nebo aktivovány a jsou aktivní vždy

Analytické cookies

Analytické cookies nám umožňují měření výkonu našeho webu a našich reklamních kampaní. Jejich pomocí určujeme počet návštěv a zdroje návštěv našich internetových stránek. Data získaná pomocí těchto cookies zpracováváme anonymně a souhrnně, bez použití identifikátorů, které ukazují na konkrétní uživatelé našeho webu. Díky těmto cookies můžeme optimalizovat výkon a funkčnost našich stránek.

Preferenční cookies

Preferenční cookies umožňují, aby si webová stránka zapamatovala informace, které mění, jak se webová stránka chová nebo jak vypadá. Je to například Vámi preferovaný jazyk, měna, oblíbené nebo naposledy prohlížené produkty apod. Díky těmto cookies Vám můžeme doporučit na webu produkty a nabídky, které budou pro Vás co nejzajímavější.

Marketingové cookies

Marketingové cookies používáme my nebo naši partneři, abychom Vám dokázali zobrazit co nejrelevantnější obsah nebo reklamy jak na našich stránkách, tak na stránkách třetích subjektů. To je možné díky vytváření tzv. pseudonymizovaného profilu dle Vašich zájmů. Ale nebojte, tímto profilováním zpravidla není možná bezprostřední identifikace Vaší osoby, protože jsou používány pouze pseudonymizované údaje. Pokud nevyjádříte souhlas s těmito cookies, neuvidíte v reklamních sděleních obsah ušitý na míru Vašim zájmům.

DALŠÍ ČLÁNKY