10 2011 档案

摘要:之前介绍了C5.0的内容,今天将描述超市购物篮内容(所购买的全部商品的集合)的虚构数据,以及购买的相关个人数据(通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(年龄,收入)刻画其特征的客户群。要做这项工作,要进行两个阶段的工作:关联规则建模和一个解释所购买商品之间联系的WEB显示;C5.0规则归纳(描绘已标识产品组的购买者的特征)Note:此应用不直接使用预测模型,因此,不对最终模型进行准确性度量,在数据挖掘过程中也不存在与之相关的训练/检验两个步骤的区分。本例使用baskrule的流,该流引用名为BASKETS1n的数据文件。这些文件可在Clementine安装文件的De 阅读全文
posted @ 2011-10-25 07:40 data->intelligence 阅读(6323) 评论(0) 推荐(0)
摘要:描述性分析过程主要用于对连续变量做描述性分析,可以输入多种类型的统计量,也可以将原始数据转换成标准Z分值饼存入当前数据集。基本统计量的计算与描述性分析简介描述性分析主要是针对数据进行基础性描述,主要用于描述变量的基本特征。SPSS中的描述性分析过程可以生成相关的描述性统计量,如:均值、方差、标准差、全距、峰度和偏度,同时描述性分析过程还将原始数据转换为Z分值并作为变量储存,通过这些描述性统计量,我们可以对变量的综合特征进行全面的了解。表示集中趋势的统计量(1)均值均值分析可以分为算数平均数、调和平均数以及集合平均数三种。算数平均数 算术平均数是集中趋势最常用、最重要的测度值。他是将总体标志总量 阅读全文
posted @ 2011-10-23 16:07 data->intelligence 阅读(31263) 评论(2) 推荐(0)
摘要:观测量组到变量组的重组使数据由纵向格式转换为横向格式,步骤如下:1)选择重组变量。在“重组数据向导”对话框中选择“将选定个案重组为变量”单选按钮,单击“下一步”按钮,弹出“重组数据向导--第2步(功步)”对话框。从“当前文件中的变量”列表框中选择在重组后将在数据集中标识观测记录的变量,单击右箭头按钮将其选入“标识符变量”列表;选择构成新数据集中变量组的变量,单击右箭头将其选入“索引变量”列表。本例中,将“观测量”变量选入“标识符变量”列表,将“D”变量 选入 “索引变量”列表。2)原始数据的排序设置。单击“下一步”按钮,弹出“重组数据向导--第3步(共5步)”该对话框用于设置是否对原始数据进行 阅读全文
posted @ 2011-10-19 06:47 data->intelligence 阅读(1055) 评论(0) 推荐(0)
摘要:不同的分析方法需要不同的数据文件结构,当现有的数据文件结构与将要进行分析所要求的数据结构不一致时,我们需要进行数据文件结构的重组,一般来说数据文件的结构分析为横向和纵向两种结构。横向结构横向结构的数据将一个变量组中的不同分类分别作为不同的变量,例如将A,B,C作用下的数值分别作为一个变量进行保存,每一个组是一个观测量,如图:纵向结构纵向结构的数据将一个变量组中的不同分类分别作为不同的观测量,例如将A,B,C组作用下的数值作为一个观测量,如图:数据重组方式的选择在菜单栏中一次选择“数据”|“重组”命令,打开如下所示“重组数据向导”对话框。该对话框提供了三种数据重组方式,分别是“将选定变量组重组为 阅读全文
posted @ 2011-10-18 07:41 data->intelligence 阅读(1917) 评论(0) 推荐(0)
摘要:C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。C4.5算法是ID3算法的修订版,采用GainRatio来加以改进方法,选取有最大GainRatio的分割变量作为准则,避免ID3算法过度配适的问题。C5.0算法则是C4.5算法的修订版,适用于处理大数据集,采用Boosting方式提高模型准确率,又称为BoostingTrees,在软件上计算速度比较快,占用的内存资源较少。决策 阅读全文
posted @ 2011-10-12 15:58 data->intelligence 阅读(28716) 评论(1) 推荐(2)