摘要: pca是一种黑箱子式的降维方式,通过映射,希望投影后的数据尽可能的分散, 因此要保证映射后的方差尽可能大,下一个映射的方向与当前映射方向正交 pca的步骤: 第一步: 首先要对当前数据(去均值)求协方差矩阵,协方差矩阵= 数据*数据的转置/(m-1) m表示的列数,对角线上表示的是方差,其他位置表示 阅读全文
posted @ 2018-08-24 22:16 python我的最爱 阅读(627) 评论(0) 推荐(0) 编辑
摘要: DBSCAN 是一种基于密度的分类方法 若一个点的密度达到算法设定的阖值则其为核心点(即R领域内点的数量不小于minPts) 所以对于DBSCAN需要设定的参数为两个半径和minPts 我们以一个啤酒的分类指标来做第一步:提取数据,并分配变量 第二步:构建模型,并做测试,我们使用的r半径为10,最小 阅读全文
posted @ 2018-08-24 17:09 python我的最爱 阅读(543) 评论(0) 推荐(0) 编辑
摘要: kmeans是一种无监督的聚类问题,在使用前一般要进行数据标准化, 一般都是使用欧式距离来进行区分,主要是通过迭代质心的位置 来进行分类,直到数据点不发生类别变化就停止, 一次分类别,一次变换质心,就这样不断的迭代下去 优势:使用方便劣势:1.K值难确定 2. 复杂度与样本数量呈线性关系 3.很难发 阅读全文
posted @ 2018-08-24 17:01 python我的最爱 阅读(889) 评论(0) 推荐(0) 编辑