摘要: https://www.cnblogs.com/c-x-a/p/9889623.html 创建scrapy工程 1、scrapy startproject xxx xxx就是你的项目名,这里我们给我们的项目起名qiushibaike。 然后我们会发现了多了一个文件名为qiushibaike的文件夹 阅读全文
posted @ 2019-01-29 22:21 星涅爱别离 阅读(174) 评论(0) 推荐(0) 编辑
摘要: Requests 传递参数 二进制数据 json处理 原始数据处理 提交表单 重定向和重定向历史 网站跳转的时候跟踪用 代理 Beautiful Soup Htmlparser html格式的尽量不要用xml的方式去处理,因为html可能格式不完整 sqlite3 mySQL 需要指定mysql:h 阅读全文
posted @ 2019-01-29 21:09 星涅爱别离 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 代码很简单但是实现的内容可不简单,第一行导入pandas包,第二行的read_html核心功能实现是调用requests然后解析table标签里的每个td的数据最后生成一个list对象里面是dataframe对象。所以通过小标0获取它的第一个dataframe数据,既然是dateframe我们就可以 阅读全文
posted @ 2019-01-29 21:07 星涅爱别离 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 肘部法则–Elbow Method 我们知道k-means是以最小化样本与质点平方误差作为目标函数,将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度(distortions),那么,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。 畸变程度会随着类别的增加而 阅读全文
posted @ 2019-01-29 17:38 星涅爱别离 阅读(41648) 评论(0) 推荐(2) 编辑
摘要: 尝试拓展 阅读全文
posted @ 2019-01-29 17:31 星涅爱别离 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 数据导入+欧式距离计算+互信息计算 阅读全文
posted @ 2019-01-29 17:28 星涅爱别离 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 轮廓系数 阅读全文
posted @ 2019-01-29 17:26 星涅爱别离 阅读(432) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt df_features = pd.read_csv(r'11111111.csv',encoding='gbk') # 读入数据 #print(df_features) '利用SSE选择k' SSE = []... 阅读全文
posted @ 2019-01-29 17:25 星涅爱别离 阅读(1487) 评论(0) 推荐(0) 编辑
摘要: 注意首先要import operator 阅读全文
posted @ 2019-01-29 17:23 星涅爱别离 阅读(665) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/niniya/p/8784947.html https://blog.csdn.net/darkrabbit/article/details/80378597 https://www.jianshu.com/p/841ecdaab847?tdsourc 阅读全文
posted @ 2019-01-29 17:15 星涅爱别离 阅读(84) 评论(0) 推荐(0) 编辑
摘要: NMI计算 NMI(Normalized Mutual Information)标准化互信息,常用在聚类中,度量两个聚类结果的相近程度。是社区发现(community detection)的重要衡量指标,基本可以比较客观地评价出一个社区划分与标准划分之间相比的准确度。NMI的值域是0到1,越高代表划 阅读全文
posted @ 2019-01-29 17:11 星涅爱别离 阅读(5749) 评论(1) 推荐(0) 编辑
摘要: 数据离散化和归一化 在进行数据分析时,通常需要对数据进行归一化和离散化的操作 from pylab import * from numpy import * import codecs import matplotlib.pyplot as plt import operator #新加了一个库,用 阅读全文
posted @ 2019-01-29 16:50 星涅爱别离 阅读(976) 评论(0) 推荐(0) 编辑
摘要: Calinski-Harabaz(CH) CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度,CH指标由分离度与紧密度的比值得到。从而,CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。 在scikit-lea 阅读全文
posted @ 2019-01-29 16:16 星涅爱别离 阅读(13624) 评论(0) 推荐(2) 编辑
摘要: 对kmeans聚类如何选择k 下述提及方法均以k-means算法为基础, 不同聚类方法有不同的评价指标,这里说说k-means常用的两种方法 1、肘部法则–Elbow Method 我们知道k-means是以最小化样本与质点平方误差作为目标函数,将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度 阅读全文
posted @ 2019-01-29 15:50 星涅爱别离 阅读(13641) 评论(0) 推荐(0) 编辑