RapidMiner概述

     RapidMiner提供了可视化的数据挖掘技术,可视化建模简化了数据挖掘的工作,其5.3版本是开源的版本(代码全部用Java实现),但这个版本缺少对hadoop的支持(rm6已经支持hadoop,但6的版本是不开放源码的),现因工作需要,需要在5.3开源版本的基础上添加hadoop组件,支持以hadoop中的数据作为数据源,进行数据挖掘相关工作。

     RapidMiner studio是RapidMiner的客户端,其核心功能由operator(操作因子)、process(挖掘任务)、Repository(存储库)组成。

     operator包含数据导入导出、数据转换、数据建模、模型评估等功能。

     process由operator组成。

     Repository是存储库,用来存放procss的配置信息等。

     存储库分为本地和远程(即server端)二种,RapidMiner server除了存放挖掘任务的配置信息外,主要负责任务的调度运行。

     要添加RapidMiner对hadoop的支持,先需要研究清楚当前5.3版本的源码,以了解其架构,以下是对RapidMiner源码的学习研究:

    一 :RapidMiner studio之GUI源码分析 

    二 :RapidMiner Studio之GUI多语言支持

    三 :RapidMiner Studio之Action源码分析

    四 :RapidMiner Studio之Process源码分析

    五 :RapidMiner studio之Operator源码分析

 

    RapidMiner5.3下载地址:https://my.rapidminer.com/nexus/account/index.html#downloads

    RapidMiner5.3源码地址:https://github.com/rapidminer/rapidminer

posted @ 2015-07-14 15:17  haizhun  阅读(2992)  评论(2编辑  收藏  举报