2019 年 1月 29 日随笔档案 - 星涅爱别离

2019年1月29日

摘要： https://www.cnblogs.com/c-x-a/p/9889623.html 创建scrapy工程 1、scrapy startproject xxx xxx就是你的项目名，这里我们给我们的项目起名qiushibaike。然后我们会发现了多了一个文件名为qiushibaike的文件夹阅读全文

posted @ 2019-01-29 22:21 星涅爱别离阅读(174) 评论(0) 推荐(0) 编辑

crawler碎碎念4 关于python requests、Beautiful Soup库、SQLlite的基本操作

摘要： Requests 传递参数二进制数据 json处理原始数据处理提交表单重定向和重定向历史网站跳转的时候跟踪用代理 Beautiful Soup Htmlparser html格式的尽量不要用xml的方式去处理，因为html可能格式不完整 sqlite3 mySQL 需要指定mysql:h 阅读全文

posted @ 2019-01-29 21:09 星涅爱别离阅读(231) 评论(0) 推荐(0) 编辑

另类爬取表格数据

摘要：代码很简单但是实现的内容可不简单,第一行导入pandas包,第二行的read_html核心功能实现是调用requests然后解析table标签里的每个td的数据最后生成一个list对象里面是dataframe对象。所以通过小标0获取它的第一个dataframe数据，既然是dateframe我们就可以阅读全文

posted @ 2019-01-29 21:07 星涅爱别离阅读(270) 评论(0) 推荐(0) 编辑

如何选择kmeans中的k值——肘部法则–Elbow Method和轮廓系数–Silhouette Coefficient

摘要：肘部法则–Elbow Method 我们知道k-means是以最小化样本与质点平方误差作为目标函数，将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度(distortions)，那么，对于一个簇，它的畸变程度越低，代表簇内成员越紧密，畸变程度越高，代表簇内结构越松散。畸变程度会随着类别的增加而阅读全文

posted @ 2019-01-29 17:38 星涅爱别离阅读(41648) 评论(0) 推荐(2) 编辑

欧几里得距离

摘要：尝试拓展阅读全文

posted @ 2019-01-29 17:31 星涅爱别离阅读(370) 评论(0) 推荐(0) 编辑

数据导入+欧式距离计算+互信息计算

摘要：数据导入+欧式距离计算+互信息计算阅读全文

posted @ 2019-01-29 17:28 星涅爱别离阅读(257) 评论(0) 推荐(0) 编辑

轮廓系数

摘要：轮廓系数阅读全文

posted @ 2019-01-29 17:26 星涅爱别离阅读(432) 评论(0) 推荐(0) 编辑

肘部法则

摘要： import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt df_features = pd.read_csv(r'11111111.csv',encoding='gbk') # 读入数据 #print(df_features) '利用SSE选择k' SSE = []... 阅读全文

posted @ 2019-01-29 17:25 星涅爱别离阅读(1487) 评论(0) 推荐(0) 编辑

利用键值对进行排序的操作

摘要：注意首先要import operator 阅读全文

posted @ 2019-01-29 17:23 星涅爱别离阅读(665) 评论(0) 推荐(0) 编辑

在聚类评价这一块比较好的文章

摘要： https://www.cnblogs.com/niniya/p/8784947.html https://blog.csdn.net/darkrabbit/article/details/80378597 https://www.jianshu.com/p/841ecdaab847?tdsourc 阅读全文

posted @ 2019-01-29 17:15 星涅爱别离阅读(84) 评论(0) 推荐(0) 编辑

NMI计算

摘要： NMI计算 NMI(Normalized Mutual Information)标准化互信息，常用在聚类中，度量两个聚类结果的相近程度。是社区发现(community detection)的重要衡量指标，基本可以比较客观地评价出一个社区划分与标准划分之间相比的准确度。NMI的值域是0到1，越高代表划阅读全文

posted @ 2019-01-29 17:11 星涅爱别离阅读(5749) 评论(1) 推荐(0) 编辑

数据离散化和归一化

摘要：数据离散化和归一化在进行数据分析时，通常需要对数据进行归一化和离散化的操作 from pylab import * from numpy import * import codecs import matplotlib.pyplot as plt import operator #新加了一个库，用阅读全文

posted @ 2019-01-29 16:50 星涅爱别离阅读(976) 评论(0) 推荐(0) 编辑

【聚类评价】Calinski-Harabaz（CH）

摘要： Calinski-Harabaz（CH） CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度，通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度，CH指标由分离度与紧密度的比值得到。从而，CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果。在scikit-lea 阅读全文

posted @ 2019-01-29 16:16 星涅爱别离阅读(13624) 评论(0) 推荐(2) 编辑

【kmeans聚类】如何选择最为合适的k值

摘要：对kmeans聚类如何选择k 下述提及方法均以k-means算法为基础，不同聚类方法有不同的评价指标，这里说说k-means常用的两种方法 1、肘部法则–Elbow Method 我们知道k-means是以最小化样本与质点平方误差作为目标函数，将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度阅读全文

posted @ 2019-01-29 15:50 星涅爱别离阅读(13641) 评论(0) 推荐(0) 编辑

星涅爱别离

选择远方 ,风雨兼程 U Can Do This All Day！！

公告