无监督学习小记（参考）

下面凌乱的小记一下无监督学习
无监督学习->聚类降维
聚类：数据相似性
相似性的评估：两个数据样本间的距离
距离：欧氏距离曼哈顿距离马氏距离夹角余弦

sklearn 聚类算法 sklearn.cluster，如k-means 近邻传播 DBSCAN等
标准的数据输入格式：[样本个数，特征个数]定义的矩阵形式

介绍sklearn.cluster

算法名称	参数	可扩展性	相似度度量

降维

主成分分析PCA

PCA常用于高维数据集的探索与可视化，还可以用于数据压缩和预处理
可以把具有相关性的高维变量合成为线性无关的低维变量，称为主成分，它能够尽可能保留原始数据的信息。
一些术语
方差：各个样本和样本均值的差的平方和的均值，度量一组数据的分散程度
协方差：度量两个变量之间的线性相关性程度，为0表示二者线性无关
协方差矩阵：由变量的协方差值构成的矩阵，是对称阵
特征向量和特征值：略

PCA原理：矩阵的主成分就是其协方差矩阵对应的特征向量，按照对应的特征值大小进行排序，最大的特征值是第一主成分，其次是第二主成分，以此类推。
算法过程（参见周志华书）：
输入：样本集，低维空间维数d
过程：1、对所有样本进行去中心化；2、计算样本的协方差矩阵；3、对协方差矩阵做特征值分解；4、取最大的d个特征值所对应的特征向量
输出：投影矩阵={特征向量}
使用：sklearn.decomposition.PCA

非负矩阵分解NMF

是在矩阵中所有元素均为非负数约束条件下的矩阵分解方法
基本思想：给定一个非负矩阵V，NMF能够找到一个非负矩阵W和一个非负矩阵H，使得矩阵W和H的乘积近似等于矩阵V中的值。
W：基础图像矩阵，相当于从元矩阵V中抽取出的特征
H：系数矩阵
广泛用于图像分析、文本挖掘和语音处理等领域。
非负矩阵分解
矩阵分解的优化目标：最小化W矩阵H矩阵的乘积和原始矩阵之间的差。
使用：sklearn.decomposition.NMF

posted @ 2018-07-02 20:27 歪胡子的日常阅读(259) 评论(0) 收藏举报

刷新页面返回顶部

invictus maneo

无监督学习小记（参考）

降维

主成分分析PCA

非负矩阵分解NMF

公告