随笔- 274 文章- 7 评论- 29 阅读- 42万

随笔分类 - 聚类

如何选择kmeans中的k值——肘部法则–Elbow Method和轮廓系数–Silhouette Coefficient

摘要：肘部法则–Elbow Method 我们知道k-means是以最小化样本与质点平方误差作为目标函数，将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度(distortions)，那么，对于一个簇，它的畸变程度越低，代表簇内成员越紧密，畸变程度越高，代表簇内结构越松散。畸变程度会随着类别的增加而阅读全文

posted @ 2019-01-29 17:38 星涅爱别离阅读(43263) 评论(0) 推荐(2) 编辑

欧几里得距离

摘要：尝试拓展阅读全文

posted @ 2019-01-29 17:31 星涅爱别离阅读(374) 评论(0) 推荐(0) 编辑

数据导入+欧式距离计算+互信息计算

摘要：数据导入+欧式距离计算+互信息计算阅读全文

posted @ 2019-01-29 17:28 星涅爱别离阅读(263) 评论(0) 推荐(0) 编辑

轮廓系数

摘要：轮廓系数阅读全文

posted @ 2019-01-29 17:26 星涅爱别离阅读(450) 评论(0) 推荐(0) 编辑

肘部法则

摘要：import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt df_features = pd.read_csv(r'11111111.csv',encoding='gbk') # 读入数据 #print(df_features) '利用SSE选择k' SSE = []... 阅读全文

posted @ 2019-01-29 17:25 星涅爱别离阅读(1508) 评论(0) 推荐(0) 编辑

利用键值对进行排序的操作

摘要：注意首先要import operator 阅读全文

posted @ 2019-01-29 17:23 星涅爱别离阅读(670) 评论(0) 推荐(0) 编辑

NMI计算

摘要：NMI计算 NMI(Normalized Mutual Information)标准化互信息，常用在聚类中，度量两个聚类结果的相近程度。是社区发现(community detection)的重要衡量指标，基本可以比较客观地评价出一个社区划分与标准划分之间相比的准确度。NMI的值域是0到1，越高代表划阅读全文

posted @ 2019-01-29 17:11 星涅爱别离阅读(5893) 评论(1) 推荐(0) 编辑

数据离散化和归一化

摘要：数据离散化和归一化在进行数据分析时，通常需要对数据进行归一化和离散化的操作 from pylab import * from numpy import * import codecs import matplotlib.pyplot as plt import operator #新加了一个库，用阅读全文

posted @ 2019-01-29 16:50 星涅爱别离阅读(989) 评论(0) 推荐(0) 编辑

【聚类评价】Calinski-Harabaz（CH）

摘要：Calinski-Harabaz（CH） CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度，通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度，CH指标由分离度与紧密度的比值得到。从而，CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果。在scikit-lea 阅读全文

posted @ 2019-01-29 16:16 星涅爱别离阅读(13803) 评论(0) 推荐(2) 编辑

【kmeans聚类】如何选择最为合适的k值

摘要：对kmeans聚类如何选择k 下述提及方法均以k-means算法为基础，不同聚类方法有不同的评价指标，这里说说k-means常用的两种方法 1、肘部法则–Elbow Method 我们知道k-means是以最小化样本与质点平方误差作为目标函数，将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度阅读全文

posted @ 2019-01-29 15:50 星涅爱别离阅读(13813) 评论(0) 推荐(0) 编辑

公告

昵称：星涅爱别离
园龄： 6年8个月
粉丝： 34
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

星涅爱别离

选择远方 ,风雨兼程 U Can Do This All Day！！

随笔分类 - 聚类

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论