三 数据挖掘算法
K-近邻 K-NN 可简单理解为 近朱者赤近墨者黑
欧式距离 文本分类计算时 余弦策略
MBR Memory-Based Reasoning 记忆基础推理法
Collaborative Filtering 协同过滤
应用场景 稀疏事件 医疗-罕见病 反欺诈
计算步骤 1、算距离 2、找邻居 3、做分类
常见问题 k值设定 一般低于训练样本数的平方根
购物篮分析和关联规则
规则的度量 支持度和置信度
支持度 广泛程度 1000小票中100张同时购买A和B AB的支持度为10%
置信度 条件概率 P(y|x) >P(y)
Apriori算法 原则 频繁项集的所有非空子集一定也是频繁的 frequent
回归分析
应用 信用评分 logistic 逻辑回归
聚类分析
常用于客户细分
数据探索和预处理
文本www等分类
K-Means算法