机器学习(三)

机器学习

K-Means

原理:
- 随机的再原始数据的图像中选择几个随机的点
- 分别以这些点为k, 也就是为中心, 对数据中其他的点的距离进行判断, 那个点里这随意的点中的一个最近, 就认为该点和随机点是同一类的
- 分类之后, 再从新分成的每一个堆中的再随机取出一个中心点, 重复第二步
- 最终, 如果变化不明显了, 就不在迭代了
缺点:
一般只能处理线性的, 如果是圆环类型的, 不如对笑脸形状的散列图就无法而出期望的聚类
划分出来的也是线性的
是无监督学习算法

DBSCAN算法

Density-Based Spatial Clustering of Applications with Noise
中心对象不再是随机的了, 而是如果某一个点的密度达到了算法设定的阈值则其为中心点
阈值为点的密度
需要一个半径
自己规定一个固定的半径进行画圆, 发展下线
缺点:
- 因为DBSCAN算法是基于密度的, 所以如果数据集是密度比较密集的就不好算了

特征增强

轮廓系数

有公式
计算样本i到同类其他样本的平均距离ai, ai越小, 说明样本越应该被聚类到该类别, 将ai称之为样本为i的类内不相似度
计算样本到其他类Cj的所有样本的平均距离bij, 称之为样本i与类Cj的不相似度, 定义为样本i的类内不相似度

EM算法

最大似然估计: 累乘求导时使用log转为累加求导

隐变量: 引入隐变量Z, 考虑Z所有的可能性
在机器学习中假设非常的重要, 有了假设就对该假设进行验证, 同时假设可以是多个, 比较各个假设得到的结果, 选择最好的假设
Jensen不等式

posted @ 2018-08-29 17:38 gogogo11 阅读(256) 评论(0) 收藏举报

刷新页面返回顶部