Data Mining zdarma – Rapid Miner v praxi

V době, kdy se všechny firmy snaží snížit své náklady, přijde úspora za licenci na software vhod. Tím spíš, čím je tato částka vyšší. To je bohužel velmi častý případ statistického softwaru. Věřím, že tedy s nadšením přivítáte naši recenzi open source data miningového softwaru Rapid Miner - vítěze ankety KD Nuggets o nejpoužívanější nástroj pro data mining.

Autor: Jan Matoušek, 26. září 2010


V dnešním příspěvku se soustředím na možnost provozovat data mining na nástroji, který je zdarma, čili pokrytý licencí pro svobodný software. Zvolíme v současné době zřejmě nejpopulárnější nástroj pro data mining – RapidMiner.

Proč RapidMiner?

V anketě prestižní stránky pro data minery KD Nuggets Rapid Miner jednoznačně zvítězil jako nejpoužívanější nástroj, a to i nad komerčními nástroji. Tento závěr nemusí být reprezentativní, protože stránky KD Nuggets čtou pouze nezávislejší analytici. Řadoví „korporátní“ analytici se budou spíše vyskytovat na stránkách svého poskytovatele softwaru, například SPSS či SAS, kde by dopadla stejná anketa úplně jinak. Pro mě je však vítězství v nezávislé anketě dostatečným důvodem k tomu stáhnout nejnovější verzi a začít s testováním.

Pokud by tržní podíl OpenOffice překonal v prestižní nezávislé anketě Microsoft, stál by jistě také za vyzkoušení. RapidMiner si ovšem na svém poli vede výrazně lépe než OpenOffice na svém, a v mnohém objektivně překoná své komerční příbuzné.

Změny v oblasti softwaru pro data mining

Vítězství v anketě, obzvláště pokud by ho RapidMiner obhájil i v roce 2011, znamená silný posun na trhu data miningových řešení. Firmy se v období tenčení rozpočtů poohlížejí po škrtech v nákladech a software je jednou z oblastí, kde se šetřit dá. KD nuggets na to konto označuje v roce 2010 za největší losers (tedy firmy, které podle serveru mohly ztratit tržní podíl) populární IBM SPSS Modeler (Clementine), automatizovaný KXEN a dokonce i SAS Enterprise miner. Tato řešení jsou velmi rozdílná a spojuje je jediný společný jmenovatel – vysoká cena. Mezi úspěšné anketa zařazuje kromě open source nástrojů i Microsoft, který nasadil nevídaný koncept „data miningu pro každého“ a integruje jednoduché data miningové nástroje do Excelu a SQL Serveru.

Co je nového?

Kromě firemních úspor stojí za úspěchem RapidMineru ve verzi 5.0 obrovský kus práce, který vývojáři odvedli od verze 4. Pojďme si vyhodnotit jednotlivé aspekty s velkým důrazem na použitelnost řešení.

Uživatelská přívětivost pro data minery

Na první pohled je jasné, že svůj úspěch staví RapidMiner na tom, co v open source komunitě data minerů dosud zcela chybělo – na uživatelské přívětivosti. RapidMiner tak útočí přímo na nejsilnější pozici komerčního softwaru – okamžitou použitelnost a krátké zaučení. Ve své nejnovější verzi se nástroj neovládá o nic hůře než například starší verze komerčního nástroje SPSS Clementine a naučit se jej lze za přibližně stejnou dobu.

Nápověda

Rovněž nápověda je oblast, kde udělal RapidMiner skok dopředu. Ačkoli nápověda komerčních řešení je obvykle obsáhlejší, velmi vhodný je „hands-on“ tutoriál, který nás provede sestavením prvních projektů doslova „za ručičku“.

Výkon- běžná Java

Co se týče výkonu, první výsledky jsou docela dobré. Není to až tak zásluha vývojářského týmu, jako zásluha výrobců hardware, kteří konečně sestavují stroje schopné pohodlně provozovat náročné Java aplikace. Pro běh programu si každopádně připravte stroj, který má vícejádrový procesor a několik GB paměti. Budete pracovat v Javě s velkými daty a náročnost takové práce můžeme ilustrovat obrázkem ze systému Windows.
Výkonnostní propast vzhledem ke komerčním řešením se ovšem zužuje, protože např. SPSS vyvíjí nové verze také v Javě i přes nelibost majitelů slabších strojů, na kterých se Java aplikace prostě hýbou velmi líně.

Algoritmy pro data mining

Co se týče samotných algoritmů pro data mining, nebyl na tom open source nikdy výrazně hůře než komerční software. RapidMiner není v tomto směru výjimkou a poskytuje velkou škálu vlastních algoritmů a algoritmů z vynikajícího software WEKA. Autoři jsou ovšem oproti autorům komerčního software tradičně zatíženi akademickým postupem, takže je třeba přesně dbát na posloupnost kroků a data velmi pečlivě zpracovat před aplikací algoritmu. Svoje algoritmy nepopisují příliš jasným jazykem a někdy si v popisu vystačí s pouhým odkazem na vědeckou literaturu. Silnou stránkou jsou tedy algritmy samotné, ovšem za slabý považuji jejich popis a někdy i flexibilitu, co se týče vstupních proměnných. Některé algoritmy také ještě nejsou zcela optimalizované pro velká data, a tak je potřeba se jim přizpůsobit tvorbou vzorků.

Verdikt - "Sehr gut"

Protože RapidMiner pochází z německého jazykového prostředí, můžeme ho ohodnotit označením „Sehr gut“, na který jsou spotřebitelé u sousedů zvyklí. Firmy, které již investovaly do proprietálních řešení, udělají pravděpodobně z hlediska celkových nákladů vlastnictví nejlépe, když je budou používat i nadále. Firmy, které se pouští do data miningu nově, rozhodně s RapidMinerem neudělají chybu, a to ani kdyby chtěly v budoucnu přejít na komerční licence. Pro nezávislé konzultantské firmy je otevřený nástroj skutečným požehnáním. RapidMiner bude mít v naší firmě Data Mind jistě stálé místo. Více informací najdete na stránkách výrobce softwaru www.rapidminer.com. Stáhněte ho ještě dnes, nic lepšího na poli otevřeného softwaru prostě není.

Tyto webové stránky používají k poskytování svých služeb soubory Cookies. Používáním těchto webových stránek souhlasíte s použitím souborů Cookies.
Nastavení Souhlasím
Souhlas můžete odmítnout zde.
×
Nastavení cookies

Zde máte možnost přizpůsobit soubory cookies dle kategorií, jak vyhovují nejlépe Vašim preferencím.

Technické cookies

Technické cookies jsou nezbytné pro správné fungování webové stránky a všech funkcí, které nabízí a nemohou být vypnuty bez zablokování funkcí stránky. Jsou odpovědné mj. za uchovávání produktů v košíku, přihlášení k zákaznickému účtu, fungování filtrů, nákupní proces nebo ukládání nastavení soukromí. Z tohoto důvodu technické cookies nemohou být individuálně deaktivovány nebo aktivovány a jsou aktivní vždy

Analytické cookies

Analytické cookies nám umožňují měření výkonu našeho webu a našich reklamních kampaní. Jejich pomocí určujeme počet návštěv a zdroje návštěv našich internetových stránek. Data získaná pomocí těchto cookies zpracováváme anonymně a souhrnně, bez použití identifikátorů, které ukazují na konkrétní uživatelé našeho webu. Díky těmto cookies můžeme optimalizovat výkon a funkčnost našich stránek.

Preferenční cookies

Preferenční cookies umožňují, aby si webová stránka zapamatovala informace, které mění, jak se webová stránka chová nebo jak vypadá. Je to například Vámi preferovaný jazyk, měna, oblíbené nebo naposledy prohlížené produkty apod. Díky těmto cookies Vám můžeme doporučit na webu produkty a nabídky, které budou pro Vás co nejzajímavější.

Marketingové cookies

Marketingové cookies používáme my nebo naši partneři, abychom Vám dokázali zobrazit co nejrelevantnější obsah nebo reklamy jak na našich stránkách, tak na stránkách třetích subjektů. To je možné díky vytváření tzv. pseudonymizovaného profilu dle Vašich zájmů. Ale nebojte, tímto profilováním zpravidla není možná bezprostřední identifikace Vaší osoby, protože jsou používány pouze pseudonymizované údaje. Pokud nevyjádříte souhlas s těmito cookies, neuvidíte v reklamních sděleních obsah ušitý na míru Vašim zájmům.

DALŠÍ ČLÁNKY