简介: 本文从介绍 SPSS 产品家族开始,将详细介绍 SPSS 数据挖掘套件的基本使用,数据挖掘的基本概念及其与 BI 和统计数据分析等概念的区别,作为工业界标准的数据挖掘标准流程 Crisp-DM 以及一些典型的数据挖掘算法。期望能够帮助从事相关工作的工程师和数据分析人员尽快建立使用 SPSS 进行数据挖掘的概念框架。
Spass 发展历史
SPSS 是著名的统计分析和数据挖掘软件,一直以来它和 SAS,BMDP 并称为最有影响力的三大统计分析软件。广泛应用于经济学、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。
SPSS 最早由斯坦福大学三位学生于 1968 年创建,早期只适用于大型机,在 1984 年推出了基于 PC 的 SPSS/PC+,后来于 1992 年推出了 Windows 版本。SPSS 在 2009 年被 IBM 正式收购,成为 IBM 分析与预测解决方案的重要组成部分。同样也是在 2009 年,SPSS 重新包装旗下的 SPSS 产品线,定位为预测统计分析软件 (Predictive Analytics Software)PASW。
Pasw产品线介绍
2009 年,SPSS 产品线被重新定位为预测统计分析软件 (Predictive Analytics Software)PASW,它包括四部分:
- 统计分析:PASW Statistics ( 前身是 SPSS Statistics)
- 数据挖掘:PASW Modeler ( 前身是 Clementine)
- 数据收集:DataCollection family ( 前身是 Dimensions):
- 企业应用服务:PASW Collaboration and Deployment Services ( 前身是 Predictive Enterprise Services)
本文主要围绕 PASW Modeler 展开介绍。PASW Modeler 是重新命名后的称呼。表 1 给出了数据挖掘套件更名前后的对照。
表 1. PASW 数据挖掘套件更名前后对照Clementine base | PASW Modeler |
ClementineServer | PASW Modeler Server |
Web mining for Clementine | PASW Modeler Web Mining |
Text mining for Clementine | PASW Modeler Text Mining |
Sollution Publisher | PASW Modeler Sollution Publisher |
Clementine Classification Module | PASW Classification |
Clementine Segmentation Module | PASW Segmentation |
Clementine Association Module | PASW Association |
PASW Modeler 产品线主要包含三大主要部分,他们是 PASW Modeler,PASW Modeler Server 和三大算法模块。PASW Modeler 既可以单独作为一个桌面应用,也可以作为 PASW Modeler Server 的客户端,它包含基本的数据挖掘算法功能,是数据挖掘用户一个很好的学习应用起点。通过使用 PASW Modeler,用户可以很快从直觉上获得数据挖掘的感受。同时它也包含 PASW modeler 的可视化界面以及数据挖掘需要的其它功能模块。三大算法模块主要代表了数据挖掘的三类算法家族,他们分别是分类,聚类和关联规则分析。PASW Modeler Server 主要出于性能和可扩展行的考虑,能在远程服务器或数据库上执行分析流。这样就可以使企业利用已有的 IT 投资,尤其是数据库系统。如果使用 PASW Modeler 则 PASW Modeler 和三大算法模块就组成了客户端。图 1 就是 client/server 架构的 PASW Modeler 示意图。
图 1. PASW Modeler Client/Server 架构一般来讲,数据挖掘产品除了需要提供核心的挖掘算法之外, 还需要全面的数据处理能力,这些功能需求如下:
- 全面的数据访问能力
- 数据探索和可视化
- 数据处理,清洗和转换
- 创造和评估预测模型
- 结果部署到商业流程中
而 PASW Modeler 整合了全部这些功能模块。下图就是 PASW Modeler 的工作界面。
图 2. PASW Modeler 的工作界面- 数据挖掘和其它数据分析技术的区别
- 数据挖掘和统计的区别:统计着重于验证和测试假设,也就是说在你开始分析前你知道模式或模型是什么而数据挖掘则着眼于生成假设以及在没有指导的情况下发现新模式。
- 数据挖掘和预测分析的区别:预测分析使用预测技术驱动商业价值,数据挖掘是预测分析核心是其起点 .IBM PASW Modeler 是预测分析工作的起点。
- 数据挖掘和商业智能的区别:数据挖掘着眼于预测未来, 而商业智能着眼于统计分析和报告已有的数据,比如报表,OLAP 分析等。
作为一种方法,它包含工程中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系的说明。
作为一种流程模型,CRISP-DM 概述了数据挖掘的生命周期。
生命周期模型中由六个阶段组成,其中的箭头表示这些阶段间最重要和最频繁使用的依赖关系。阶段之间并不一定要严格遵守顺序。实际上,大多数工程都会根据需要在这些阶段之间来回移动。这六个阶段分别是:
- 业务理解 (Business Understanding)
- 数据理解 (Data Understanding)
- 数据准备 (Data Preparation)
- 建模(Modeling)
- 评估(Evaluation)
- 部署 (Deployment)
图 3形象的表达了六大阶段之间的关系。
当前 CRISP-DM 提供了一个数据挖掘生命周期的全面评述。他包括项目的相应周期,他们的各自任务和这些任务的关系。在这个描述层,识别出所有关系是不可能的。所有数据挖掘任务之间关系的存在是依赖用户的目的、背景和兴趣,最重要的还有数据。这里需要提到的是 PASW Modeler 在它的工作台中整合了这个个流程,是用户能够非常容易的遵守这个流程来进行数据挖掘任务的开发 .
对于 CRISP-DM 的详细介绍,请参考 PASW Modeler 关于这一主题的专门帮助文档或网上这一社区的电子版规范。
图 3.CRISP-DM 框架本示例处理描述超级市场购物篮内容(即,所购买的全部商品的集合),以及购买者的相关个人数据(可通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(如按年龄、收入等)刻画其特征的客户群。
本示例演示了两类主要的数据挖掘方法:关联规则分析和分类。
- 使用关联规则建模和分析揭示所购买商品之间联系,使用的主要模型是 GRI(广义规则归纳)模型,同时使用网络(Web)节点来展示关联规则分析的结果。
- 使用 C5.0 规则归纳来描绘已标识产品组的购买者的特征,亦即对这些购买者进行分类。
此应用不直接使用预测建模,因此,不对最终模型进行准确性度量,在数据挖掘过程中也不存在与之相关的训练 / 检验两个步骤的区分。
本例引用名为 BASKETS1n 的数据文件。这些文件可在任何 PASW Modeler安装程序的 Demos 目录中找到。此目录可通过 Windows“开始”菜单的 PASW Modeler 程序组进行访问。
使用“变量文件”节点连接到数据集 BASKETS1n,选择要从该文件读取的字段名称。将“类型”节点连接到数据源,然后将该节点连接到“表”节点。将字段卡 ID 的类型设置为无类型(因为每个忠诚卡 ID 在数据集中只出现一次,因此对于建模没有用处)。选择集作为字段性别的类型(这是为了确保 GRI 建模算法不会将性别视为标志)。通过这些步骤生成的流如图 4 中矩形框内节点所示。
图 4. 导入数据集现在,右键点击”表”节点,将执行该流以将“类型”节点实例化并显示表。从表中数据集包含 18 个字段,其中每条记录表示一个购物篮。如图 5 所示。
图 5. 执行“Table”节点后的结果列标题中显示的 18个字段释义如表 2。
表 2. 数据集字段释义字段名称 | 释义 |
---|---|
cardid | 购买此篮商品的客户的忠诚卡标识符 |
Value | 购物篮的总购买价格 |
pmethod | 支付方法 |
sex | 卡持有者是否拥有住房 |
homeown | 是否拥有住房 |
Income | 收入 |
Age | 年龄 |
fruitveg | 标志字段 , 标识是否购买了果蔬 |
freshmeat | 标志字段 , 标识是否购买了鲜肉 |
dairy | 标志字段 , 标识是否购买了牛奶 |
cannedveg | 标志字段 , 标识是否购买了灌装蔬菜 |
cannedmeat | 标志字段 , 标识是否购买了灌装肉 |
frozenmeal | 标志字段 , 标识是否购买了冷冻食品 |
beer | 标志字段 , 标识是否购买了啤酒 |
wine | 标志字段 , 标识是否购买了酒类 |
softdrink | 标志字段 , 标识是否购买了饮料 |
Fish | 标志字段 , 标识是否购买了鱼类 |
confectionery | 标志字段 , 标识是否购买了糕点糖果 |
产品类别的出现标志字段属于购物篮内容,收入,年龄,住房,性别属于个人详细信息,其它字段是摘要字段。
首先,需要使用一般规则归纳 (GRI) 大致了解购物篮内容的关系(关联)以生成关联规则。选择要在此建模过程中使用的字段,方法是:编辑“类型”节点,将所有产品类别的方向设置为双向,并将所有其他方向设置为无。( 双向表示该字段可以是结果模型的输入或输出。)如下图所示。
图 6. 为 GRI 节点准备字段类型通过按住 Shift 键并单击以选择多个字段,然后指定列中的选项,可为多个字段设置选项指定了用于建模的字段后,请将 GRI 节点附加到“类型”节点,编辑它,选择选项只显示值为真的标志变量。接着将 Web 节点也附加到“类型”节点,编辑 Web 节点,选择所有购物篮内容字段,选择仅显示 true 标志。此时生成的流如下图中矩形框所示。
图 7. 执行“Table”节点后的结果接下来然后右键点击 GRI 节点,选择“执行”。结果如下图所示。
图 8. 执行 GRI 节点后生成的关联规则这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联;酒和糖果也具有关联。出现双向关联规则(如:冷冻食品 -> 啤酒,啤酒 -> 冷冻食品)。
Web 显示(只显示双向关联)可能会突出显示此数据中的一些模式。 首先,需要使用一般规则归纳 (GRI) 大致了解购物篮内容的关系(关联)以生成关联规则。选择要在此建模过程中使用的字段,方法是:编辑“类型”节点,将所有产品类别的方向设置为双向,并将所有其他方向设置为无。( 双向表示该字段可以是结果模型的输入或输出。)然后执行 Web 节点。结果如下图所示。
图 9. 执行 Web 节点生成的表达关联关系的 Web 图注:通过按住 Shift 键并单击以选择多个字段,然后指定列中的选项,可为多个字段设置选项。
指定了用于建模的字段后,请将 GRI 节点附加到“类型”节点,编辑它,选择选项只显示值为真的标志变量,然后执行 GRI 节点。结果(管理器窗口右上角“模型”选项卡上的非精练模型)包含您可以查看(使用上下文菜单,然后选择浏览)的关联规则。
这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联;酒和糖果也具有关联。出现双向关联规则(如:
冷冻食品 -> 啤酒 啤酒 -> 冷冻食品 |
提示:Web 显示(只显示双向关联)可能会突出显示此数据中的一些模式。
因为大多数产品类别组合都会出现在多个购物篮中,所以此 Web 上的强链接太多,无法显示 GRI 模型表示的客户群。要提高临界值以便只显示最强的链接,请使用工具栏上的滑块来实现最多只显示 50 个连接。
- 要指定弱连接和强连接,请单击工具栏上的黄色双箭头按钮。这会展开显示 Web 输出摘要和控件的对话框。
- 选择大小表示强 / 正常 / 弱。
- 将弱链接设置为低于 90。
- 将强链接设置为高于 100。
在最终显示中,会有三个客户群突出显示:
- 购买鱼和果蔬的客户,可将这类客户称为“健康食客”
- 购买酒和粮果的客户
- 购买啤酒、冻肉和罐装蔬菜(“啤酒、豆类和比萨”)的客户
这样,我们已经根据客户购买的产品类型标识了三个客户群。
但是我们还想做进一步的分析,我们想知道这些客户是谁,也就是他们的人口统计学特征。通过为每个群中的每名客户添加标志,并使用规则归纳 (C5.0) 来基于规则描绘这些标志的特征,可以实现这一点。
首先,必须获取每个群的标志。使用刚刚创建的 Web 显示,可以自动生成每个群的标志。使用鼠标右键,单击 fruitveg 和 fish 之间的链接,并选择为链接生成“派生”节点。如图 10 所示。
图 10. 从 Web 节点生成链接的导出节点当完成为三个群组生成导出节点后,回到流区域,要描绘这些客户群的特征,请连续将现有的类型节点连接到这三个导出节点,然后附加另一个类型节点。在新类型节点中,请将除以下字段外的所有字段的方向都设置为无:value、pmethod、sex、homeown、income 和 age(这些字段的方向应该设置为输入),以及相关的客户群(例如,beer_beans_pizza,它们的方向应该设置为输出)。附加 C5.0 节点,如果将输出类型设置为规则集,然后执行它。则最终规则集(用于 beer_beans_pizza)包含此客户群的明确人口统计学特征:
Rule 1 for T: if income <= 16900 and sex == M then -> T |
如果如果将输出类型设置为规则集,然后执行它,则生成图 11 所示的决策树。
本文通过使用 GRI 模型、可视化网络图、决策树、以及 PASW Modeler 基本流元素的使用来说明如何使用 PASW Modeler 在数据库中发现知识。PASWModeler 系统中提供了很多种模型,对于这些模型的使用,要考虑到实际情况来酌情进行使用。
本文所展示的只是 PASW Modeler 系统的很小一部分应用。随着数据库技术的不断进步。PASW Modeler 将会越来越多的被重视、使用。
原文链接:http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-1009luxq/index.html