统计

1.聚类分析

若数据量纲差别较大，是否进行标准化处理取决于结果好坏，如果结果不符合预期则进行标准化处理，标准化方法一般选择Ｚ得分

聚类方法最好的就是组间连接，如果倾向于分类个数比较均匀可以选择ward法

（1）K-means Cluster过程

§非系统聚类

§方法特点
要求已知类别数
可人为指定初始位置节省运算时间
样本量过大时有必要考虑
只能使用连续性变量

（2）Hierarchical Cluster过程

§属于系统聚类法的一种，其聚类过程可以用树形结构(treelike structure)来描绘的方法

§特点
一旦记录/变量被划定类别，其分类结果就不会再进行更改
可以对变量或记录进行聚类
变量可以为连续或分类变量
提供的距离测量方法非常丰富
运算速度较慢

§对于样本聚类使用默认的平方欧氏距离，对于变量聚类改为皮尔逊相关性

§共线性问题
对记录聚类结果有较大的影响
相当于某个变量在聚类中的权重大于其它变量
最好先进行预处理

§分类数
从实用角度讲，2～8类比较合适

§专业意义
一定要结合专业知识进行分析

§其他方面
§聚类分析主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析
§聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响
§不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解

2.主成分分析，因子分析

主成分分析

中间手段

§方法用途
主成分评价：当进行多指标的综合评价时，应用主成分方法将多指标中的信息集中为若干个主成分，然后加权求和，得到综合评价指数。

主成分回归：通过对存在共线性的自变量进行主成分分析，从而在提取多数信息的同时解决共线性问题

因子分析

适用条件

§样本量
§样本量与变量数的比例应在5：1以上
§总样本量不得少于100，而且原则上越大越好（弹性）
§各变量间必须有相关性
§KMO统计量：0.9最佳，0.7尚可，0.6很差，0.5以下放弃
§Bartlett’s球形检验

§这些条件均是为了保证能够寻找出内在结构

分析步骤

判断是否需要进行因子分析，数据是否符合要求

进行分析，按一定标准确定提取的因子数目

如果进行的是主成分分析，则将主成分存为新变量用于继续分析，步骤到此结束

如果进行的是因子分析，则考察因子的可解释性，并在必要时进行因子旋转，以寻求最佳解释方式

如有必要，可计算出因子得分等中间指标供进一步分析使用

公因子数量的确定
§主成分的累积贡献率：80~85%以上
§特征根：大于1（可以更改）
§综合判断
§因子分析时更重要的是因子的可解释性
§必要时可保留小于1的因子

§碎石图可以帮助确定因子数量

posted @ 2017-07-19 21:11 ACLJW 阅读(199) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

ACLJW

统计

1.聚类分析

2.主成分分析，因子分析

主成分分析

因子分析

公告