导学####

  • 欧氏距离 平方
  • 曼哈顿距离 一次方
  • 马氏距离 协方差(先标准化再计算距离)\(d(x_{i},x_{j})=\sqrt{(x_{i}-x_{j}){T}s(x_{i}-x{j})}\) s为数据的协方差
  • 夹角余弦

sklearn cluster##

sklearn.cluster 模块提供的个聚类算法函数可以使用不同的数据形式作为输入
标准格式: [样本个数,特征个数]定义的矩阵形式

  • 相似矩阵输入格式
    即由[样本数目]定义的矩阵形式 DBSCAN,AffinityPropagation接受这种输入
算法名称 参数 可拓展性 相似性度量
K-means 聚类个数 大规模数据 点间距离
DNSCAN 邻域大小 大规模数据 点间距离
Gaussian Mixtures 聚类个数以及其他超参 复杂度较高不适合大规模数据 马氏距离
Birch 分支因子,阈值等其他超常参 大规模数据 欧氏距离

sklearn decomposition##

算法名称 参数 可拓展性 使用任务
PCA 所降维度以及其他超参 大规模数据 信号处理
FastICA 同上 超大规模数据 图形图像特征提取
NMF 同上 复杂度较高不适合大规模数据 图形图像特征提取
LDA 同上 大规模数据 文本数据 主题挖掘