统计

1.聚类分析

若数据量纲差别较大,是否进行标准化处理取决于结果好坏,如果结果不符合预期则进行标准化处理,标准化方法一般选择Z得分

聚类方法最好的就是组间连接,如果倾向于分类个数比较均匀可以选择ward法

(1)K-means Cluster过程

§非系统聚类


§方法特点
要求已知类别数
可人为指定初始位置节省运算时间
样本量过大时有必要考虑
只能使用连续性变量

(2)Hierarchical Cluster过程


§属于系统聚类法的一种,其聚类过程可以用树形结构(treelike structure)来描绘的方法

§特点
一旦记录/变量被划定类别,其分类结果就不会再进行更改
可以对变量或记录进行聚类
变量可以为连续或分类变量
提供的距离测量方法非常丰富
运算速度较慢

§对于样本聚类使用默认的平方欧氏距离,对于变量聚类改为皮尔逊相关性


§共线性问题
对记录聚类结果有较大的影响
相当于某个变量在聚类中的权重大于其它变量
最好先进行预处理

§分类数
从实用角度讲,2~8比较合适

§专业意义
一定要结合专业知识进行分析

§其他方面
§聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析
§聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响
§不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解

2.主成分分析,因子分析

主成分分析

中间手段


§方法用途
主成分评价:当进行多指标的综合评价时,应用主成分方法将多指标中的信息集中为若干个主成分,然后加权求和,得到综合评价指数

主成分回归:通过对存在共线性的自变量进行主成分分析,从而在提取多数信息的同时解决共线性问题

因子分析

适用条件


§样本量
§样本量与变量数的比例应在5:1以上
§总样本量不得少于100,而且原则上越大越好(弹性
§各变量间必须有相关性
§KMO统计量:0.9最佳,0.7尚可,0.6很差,0.5以下放弃
§Bartlett’s球形检验

§这些条件均是为了保证能够寻找出内在结构

分析步骤

判断是否需要进行因子分析,数据是否符合要求

进行分析,按一定标准确定提取的因子数目

如果进行的是主成分分析,则将主成分存为新变量用于继续分析,步骤到此结束

如果进行的是因子分析,则考察因子的可解释性,并在必要时进行因子旋转,以寻求最佳解释方式


如有必要,可计算出因子得分等中间指标供进一步分析使用



公因子数量的确定
§主成分的累积贡献率:80~85%以上
§特征根:大于1(可以更改)
§综合判断
§因子分析时更重要的是因子的可解释性
§必要时可保留小于1的因子

§碎石图可以帮助确定因子数量
posted @ 2017-07-19 21:11  ACLJW  阅读(199)  评论(0编辑  收藏  举报