经常使用的数据挖掘软件/软件包大盘点

本文来自网易云社区

 

数据挖掘软件首推R,它的优点在于函数都给你写好了,你只需要知道参数的形式就行了,有时候即使参数形式不对,R也能“智能地”帮你适应。这种简单的软件适合想要专注于业务的人。

R作为一款用于统计分析和图形化的计算机语言及分析工具,为了保证性能,其核心计算模块是用C、C++和Fortran编写的。同时为了便于使用,它提供了一种脚本语言,即R语言。R支持一系列分析技术,包括统计检验、预测建模、数据可视化等等。

R软件的首选界面是命令性界面,通过编写脚本来调用分析功能。如果缺乏编程技能,也可使用图形界面,比如使用R Commander。

其次是Python,Python几乎都可以做(通用性语言),函数比R多,比R快。但是缺点是比R难学一点。它是一门语言,R更像是一种软件,所以python更能开发出flexible的算法。它的语言简单易懂,做分析方便,而且可以开发大型软件。

其它数据挖掘软件用的并不是很多,但是可以结合知友的回答推荐几款,常用的数据挖掘软件还是有很多的,各有千秋。

  • SAS Data Mining:

发掘数据集的模式,其描述性和预测性模型为用户更深入的理解数据提供了基础。用户不需要写任何代码,它们提供易于使用的GUI,并提供从数据处理、集群到最终环节的自动化工具,用户可以从中得出最佳结果做出正确决策。

  • WEKA:

一款非常复杂的数据挖掘工具,也可能是名气最大的开源机器学习和数据挖掘软件。其原生的非Java版本主要是为了分析农业领域数据而开发的。该工具基于Java版本,支持多种标准数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取。高级用户可以通过Java编程和命令行来调用其分析组件。同时,Weka也为普通用户提供了图形化界面。

同时它还支持几种经典的数据挖掘任务,显著的数据预处理,集群,分类,回归,虚拟化,以及功能选择。其技术基于假设数据是以一种单个文件或关联的,每个数据点都被许多属性标注。 Weka 使用Java的数据库链接能力可以访问SQL数据库,并可以处理一个数据库的查询结果。高级用户可以通过Java编程和命令行来调用其分析组件。同时,Weka也为普通用户提供了图形化界面。和R相比,Weka在统计分析方面较弱,但在机器学习方面要强得多。

  • Software – R:

R软件是另一种较为流行的GNU开源数据挖掘工具,它主要是由C语言和FORTRAN语言编写的,是一款针对编程语言和软件环境进行统计计算和制图的免费软件。除了可以为科学家、研究人员以及学生提供数据挖掘和分析功能外,它还可以提供统计和制图技术,包括线性和非线性建模,经典的统计测试,时间序列分析、分类、收集等等。

  • NLTK:

NLTK(Natural Language Tool Kit)最适用于语言处理任务,因为它可以提供一个语言处理工具,包括数据挖掘、机器学习、数据抓取、情感分析等各种语言处理任务。而您需要做的只是安装NLTK,然后将一个包拖拽到您最喜爱的任务中,您就可以去做其他事了。因为它是用Python语言编写的,你可以在上面建立应用,还可以自定义它的小任务。

  • RapidMiner:

最受欢迎的免费数据挖掘工具之一,它是一个开源的数据挖掘软件,由Java语言编写而成,提供一些可扩展的数据分析挖掘算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供,而不是一款本地软件。

另一方面,它提供的实验由大量的算子组成,而这些算子由详细的XML 文件记录,并被RapidMiner图形化的用户接口表现出来。RapidMiner为主要的机器学习过程提供了超过500个算子,并且,其结合了学习方案和Weka学习环境的属性评估器。它是一个独立的工具可以用来做数据分析,同样也是一个数据挖掘引擎可以用来集成到你的产品中。

  • KNIME

一款基于Eclipse开发环境来精心开发的数据挖掘工具。无需安装,方便使用。用Java语言开的一款开源的数据分析、报告和综合平台,拥有数据提取、集成,处理,分析、转换以及加载所需的所有数据挖掘工具。此外,它具有图形用户界面,可以扩展使用Weka中的挖掘算法。KNIME采用的是类似数据流(data flow)的方式来建立分析挖掘流程。挖掘流程由一系列功能节点(node)组成,每个节点有输入/输出端口(port),用于接收数据或模型、导出结果。可以帮助用户轻松连接节点进行数据处理。

  • Orange数据挖掘软件:

Orange是一个开源数据挖掘和机器学习工具,它的图形环境称为Orange画布(OrangeCanvas),用户可以在画布上放置分析控件 (widget),然后把控件连接起来即可组成挖掘流程。这里的控件和KNIME中的节点是类似的概念。每个控件执行特定的功能,但与KNIME中的节点不同,KNIME节点的输入输出分为两种类型(模型和数据),而Orange的控件间可以传递多种不同的信号。Orange的控件不象KNIME的节点分得那么细,也就是说要完成同样的分析挖掘任务,在Orange里使用的控件数量可以比KNIME中的节点数少一些。Orange的好处是使用更简单一些,但缺点是控制能力要比KNIME弱。


除了界面友好易于使用的优点,Orange的强项在于提供了大量可视化方法,可以对数据和模型进行多种图形化展示,并能智能搜索合适的可视化形式,支持对数据的交互式探索。


此外,它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。Orange的弱项在于传统统计分析能力不强,不支持统计检验,报表能力也有限。Orange的底层核心也是采用C++编写,同时允许用户使用Python脚本语言来进行扩展开发。

 

在使用数据挖掘软件/软件包的过程中,若能结合大数据分析处理平台,

并能将经常使用的软件包嵌入其中,分析处理数据必会事倍功半。

利益相关:网易的猛犸大数据平台是一站式的数据开发平台,支持各种常用的数据挖掘软件/软件包,敏捷的开发模式,简单的拖拽节点即可进行任务开发,支持数据库传输节点、SQL、Cube、MR、Spark、Script等多种节点任务,内嵌的软件包简化了数据开发人员和数据分析人员冗余的工作环境,使他们更加关注业务本身。

欢迎点击这里免费试用网易猛犸。

 

posted @ 2018-07-23 16:39  网易数帆  阅读(513)  评论(0编辑  收藏  举报