V době, kdy se všechny firmy snaží snížit své náklady, přijde úspora za licenci na software vhod. Tím spíš, čím je tato částka vyšší. To je bohužel velmi častý případ statistického softwaru. Věřím, že tedy s nadšením přivítáte naši recenzi open source data miningového softwaru Rapid Miner - vítěze ankety KD Nuggets o nejpoužívanější nástroj pro data mining.
V dnešním příspěvku se soustředím na možnost provozovat data mining na nástroji, který je zdarma, čili pokrytý licencí pro svobodný software. Zvolíme v současné době zřejmě nejpopulárnější nástroj pro data mining – RapidMiner.
V anketě prestižní stránky pro data minery KD Nuggets Rapid Miner jednoznačně zvítězil jako nejpoužívanější nástroj, a to i nad komerčními nástroji. Tento závěr nemusí být reprezentativní, protože stránky KD Nuggets čtou pouze nezávislejší analytici. Řadoví „korporátní“ analytici se budou spíše vyskytovat na stránkách svého poskytovatele softwaru, například SPSS či SAS, kde by dopadla stejná anketa úplně jinak. Pro mě je však vítězství v nezávislé anketě dostatečným důvodem k tomu stáhnout nejnovější verzi a začít s testováním.
Pokud by tržní podíl OpenOffice překonal v prestižní nezávislé anketě Microsoft, stál by jistě také za vyzkoušení. RapidMiner si ovšem na svém poli vede výrazně lépe než OpenOffice na svém, a v mnohém objektivně překoná své komerční příbuzné.
Vítězství v anketě, obzvláště pokud by ho RapidMiner obhájil i v roce 2011, znamená silný posun na trhu data miningových řešení. Firmy se v období tenčení rozpočtů poohlížejí po škrtech v nákladech a software je jednou z oblastí, kde se šetřit dá. KD nuggets na to konto označuje v roce 2010 za největší losers (tedy firmy, které podle serveru mohly ztratit tržní podíl) populární IBM SPSS Modeler (Clementine), automatizovaný KXEN a dokonce i SAS Enterprise miner. Tato řešení jsou velmi rozdílná a spojuje je jediný společný jmenovatel – vysoká cena. Mezi úspěšné anketa zařazuje kromě open source nástrojů i Microsoft, který nasadil nevídaný koncept „data miningu pro každého“ a integruje jednoduché data miningové nástroje do Excelu a SQL Serveru.
Kromě firemních úspor stojí za úspěchem RapidMineru ve verzi 5.0 obrovský kus práce, který vývojáři odvedli od verze 4. Pojďme si vyhodnotit jednotlivé aspekty s velkým důrazem na použitelnost řešení.
Na první pohled je jasné, že svůj úspěch staví RapidMiner na tom, co v open source komunitě data minerů dosud zcela chybělo – na uživatelské přívětivosti. RapidMiner tak útočí přímo na nejsilnější pozici komerčního softwaru – okamžitou použitelnost a krátké zaučení. Ve své nejnovější verzi se nástroj neovládá o nic hůře než například starší verze komerčního nástroje SPSS Clementine a naučit se jej lze za přibližně stejnou dobu.
Rovněž nápověda je oblast, kde udělal RapidMiner skok dopředu. Ačkoli nápověda komerčních řešení je obvykle obsáhlejší, velmi vhodný je „hands-on“ tutoriál, který nás provede sestavením prvních projektů doslova „za ručičku“.
Co se týče výkonu, první výsledky jsou docela dobré. Není to až tak zásluha vývojářského týmu, jako zásluha výrobců hardware, kteří konečně sestavují stroje schopné pohodlně provozovat náročné Java aplikace. Pro běh programu si každopádně připravte stroj, který má vícejádrový procesor a několik GB paměti. Budete pracovat v Javě s velkými daty a náročnost takové práce můžeme ilustrovat obrázkem ze systému Windows.
Výkonnostní propast vzhledem ke komerčním řešením se ovšem zužuje, protože např. SPSS vyvíjí nové verze také v Javě i přes nelibost majitelů slabších strojů, na kterých se Java aplikace prostě hýbou velmi líně.
Co se týče samotných algoritmů pro data mining, nebyl na tom open source nikdy výrazně hůře než komerční software. RapidMiner není v tomto směru výjimkou a poskytuje velkou škálu vlastních algoritmů a algoritmů z vynikajícího software WEKA. Autoři jsou ovšem oproti autorům komerčního software tradičně zatíženi akademickým postupem, takže je třeba přesně dbát na posloupnost kroků a data velmi pečlivě zpracovat před aplikací algoritmu. Svoje algoritmy nepopisují příliš jasným jazykem a někdy si v popisu vystačí s pouhým odkazem na vědeckou literaturu. Silnou stránkou jsou tedy algritmy samotné, ovšem za slabý považuji jejich popis a někdy i flexibilitu, co se týče vstupních proměnných. Některé algoritmy také ještě nejsou zcela optimalizované pro velká data, a tak je potřeba se jim přizpůsobit tvorbou vzorků.
Protože RapidMiner pochází z německého jazykového prostředí, můžeme ho ohodnotit označením „Sehr gut“, na který jsou spotřebitelé u sousedů zvyklí. Firmy, které již investovaly do proprietálních řešení, udělají pravděpodobně z hlediska celkových nákladů vlastnictví nejlépe, když je budou používat i nadále. Firmy, které se pouští do data miningu nově, rozhodně s RapidMinerem neudělají chybu, a to ani kdyby chtěly v budoucnu přejít na komerční licence. Pro nezávislé konzultantské firmy je otevřený nástroj skutečným požehnáním. RapidMiner bude mít v naší firmě Data Mind jistě stálé místo. Více informací najdete na stránkách výrobce softwaru www.rapidminer.com. Stáhněte ho ještě dnes, nic lepšího na poli otevřeného softwaru prostě není.
DATA mesh
Šárka Kotlaříková
24. června 2024