摘要: 1.from sklearn.processing import LabelEncoder 进行标签的代码编译 首先需要通过model.fit 进行预编译,然后使用transform进行实际编译 2.from sklearn.discriminant_analysis import LinearDi 阅读全文
posted @ 2019-01-21 23:48 python我的最爱 阅读(2733) 评论(0) 推荐(1) 编辑
摘要: 聚类评估:轮廓系数 计算样本到同簇其他样本的平均距离ai, ai越小,说明样本越应该被聚类到该簇 计算样本到其他簇样本的平均距离bi,这个称为样本与簇Cj的不相似度 s(i) = (b(i) - a(i)) / max(b(i), a(i)) si 接近1, 说明b(i) 远大于a(i), 说明分类 阅读全文
posted @ 2019-01-21 11:25 python我的最爱 阅读(877) 评论(0) 推荐(0) 编辑
摘要: BIRCH:是一种使用树分类的算法,适用的范围是样本数大,特征数小的算法,因为特征数大的话,那么树模型结构就会要复杂很多 DBSCAN:基于概率密度的聚类方法:速度相对较慢,不适用于大型的数据,输入参数有r和k k-means:是通过不断更新聚类中心所进行的一种参数变化,需要输入的参数是需要聚成几类 阅读全文
posted @ 2019-01-21 11:19 python我的最爱 阅读(1162) 评论(0) 推荐(0) 编辑
摘要: DBSCAN 聚类算法又称为密度聚类,是一种不断发张下线而不断扩张的算法,主要的参数是半径r和k值 DBSCAN的几个概念: 核心对象:某个点的密度达到算法设定的阈值则其为核心点,核心点的意思就是一个点在半径r的范围内,如果存在k个值,那么这个点就成为核心对象 直接密度可达:若点p在q的邻域内,且q 阅读全文
posted @ 2019-01-21 10:42 python我的最爱 阅读(719) 评论(0) 推荐(0) 编辑