社科学生还是专心SPSS和Clementine的软件组合的好

很多人在群里问到底学什么数据分析软件,纠结呀纠结,郁闷啊郁闷,我i此前也写了一篇文章《做好数据分析的关键是打好组合拳》也介绍了。其实以我这么多年的经验看,社会科学的学生还是SPSS和Clementine组合的好。

SPSS非常基本,这里就不罗嗦了,很简单,上手很快,视频也很多,这里重点介绍下Clementine

SPSS Clementine是Spss公司收购ISL获得的数据挖掘工具。

客户端基本界面

clip_image002

项目区

顾名思义,是对项目的管理,提供了两种视图。其中CRISP-DM (Cross Industry Standard Process for Data Mining,数据挖掘跨行业标准流程)是由SPSS、DaimlerChrysler(戴姆勒克莱斯勒,汽车公司)、NCR(就是那个拥有Teradata的公司)共同提出的。Clementine里通过组织CRISP-DM的六个步骤完成项目。在项目中可以加入流、节点、输出、模型等。

工具栏

工具栏总包括了ETL、数据分析、挖掘模型工具,工具可以加入到数据流设计区中,跟SSIS中的数据流非常相似。Clementine中有6类工具。

源工具(Sources)

相当SSIS数据流中的源组件啦,clementine支持的数据源有数据库、平面文件、Excel、维度数据、SAS数据、用户输入等。

记录操作(Record Ops)和字段操作(Field Ops)

图形(Graphs)

用于数据可视化分析。

输出(Output)

Clementine的输出不仅仅是ETL过程中的load过程,它的输出包括了对数据的统计分析报告输出。

clip_image003

※在ver 11,Output中的ETL数据目的工具被分到了Export的工具栏中。

clip_image004

模型(Model)-石头的最爱,谁叫咋是学社会科学知识的呢

Clementine中包括了丰富的数据挖掘模型。

clip_image005

数据流设计区

这个没什么好说的,看图就知道了,有向的箭头指明了数据的流向。Clementine项目中可以有多个数据流设计区,就像在PhotoShop中可以同时开启多个设计图一样。

比如说,我这里有两个数据流:Stream1和Stream2。通过在管理区的Streams栏中点击切换不同的数量流。

clip_image006

管理区

管理区包括Streams、Outputs、Models三栏。Streams上面已经说过了,是管理数据流的。

Outputs

不要跟工具栏中的输出搞混,这里的Outputs是图形、输出这类工具产生的分析结果。例如,下面的数据源连接到矩阵、数据审查、直方图工具,在执行数据流后,这个工具产生了三个输出。在管理区的Outputs栏中双击这些输出,可看到输出的图形或报表。

clip_image007

Models

经过训练的模型会出现在这一栏中,这就像是真表(Truth Table)的概念那样,训练过的模型可以加入的数据流中用于预测和打分。另外,模型还可以导出为支持PMML协议的XML文件,但是PMML没有给定所有模型的规范,很多厂商都在PMML的基础上对模型内容进行了扩展,Clementine除了可以导出扩展的SPSS SmartScore,还可以导出标准的PMML 3.1。

 


为了说明Clementine的易用,请看例子

使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。更详细点击阅读

posted @ 2012-07-16 17:42  王石头  阅读(1397)  评论(0编辑  收藏  举报