第九章：聚类分析的典型应用和技术小窍门

数据化运营中聚类算法主要是K-Means算法，但其对噪声和异常值非常敏感（K-Means算法用的是平均值来聚类）

9.3.1针对数据噪声和异常值的处理

数据标准化是聚类分析中最重要的一个数据预处理步骤，它即可以为聚类计算中的各个属性赋予相同的权重，还可以有效化解不同属性因度量单位不统一所带来的潜在的数量等级的差异

数据标准化有很多不同方式，标准差标准化最常用（Z-Score标准化），处理后数据符合标准正态分布，即均值为0，标准差为1，转化公式如下：

9.3.3聚类变量少而精

9.4.1聚类的核心指标与非聚类的业务指标相辅相成

　　先通过用户行为属性的核心字段进行聚类分群，得到比较满意的聚类分群结果之后，针对每个具体的细分群体，再分别考察用户的会员属性（年龄、性别、地域、收入、爱好等）

9.4.2数据的探索和清理工具

9.4.3个性化推荐应用

K-Means算法的优点：

算法成熟可靠
不仅是模型技术，直接响应业务需求，同时还是数据分析前的数据摸底和数据清洗的效思想和工具
聚类技术比较容易用商业和业务逻辑来理解和解释
K-Means算法简洁、高效，算法时间复杂度是O(tkn,t是循环次数（算法收敛是已经迭代次数），K是聚类的个数（类别数量），n是数据点的个数（样本数量），由于t和k远远小于n，所以算法时间复杂度与数据集的大小线性相关)
K-Means算法是一个不依赖顺序的算法

9.6.1业务方的评估

9.6.2聚类技术上的评价指标

posted @ 2018-10-15 13:58 起航追梦人阅读(4807) 评论(0) 收藏举报

刷新页面返回顶部

起航追梦人