摘要: 1.K-近邻法的工作原理 ​ K-近邻法(K-Nearest Neighbor),它的本质是通过距离判断两个样本是否相似,如果距离够近就认为它们足够相似属于同一类别。 ​ “近朱者赤,近墨者黑”,“少数服从多数,一点算一票”,“越相近越相似”,这些也是KNN的基本假设。 实现过程如下: 计算待分类物 阅读全文
posted @ 2021-10-17 15:11 Rosaany 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 1.K-Means工作原理 Kmeans算法是,以空间中指定的k个点为中心进行聚类,对最靠近它们的对象进行归类。 具体过程总结如下: 随机选择K个质点。(K是一个超参数,需要我们认为输入确定) 计算每个数据点到质心的距离,并将数据点归类到距离其最近的簇。(簇中所有数据的均值通常被称为这个簇的“质心” 阅读全文
posted @ 2021-10-17 11:36 Rosaany 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 问题 Window Command输入pip install wordcloud报错,一片红 "error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools":" 这个不 阅读全文
posted @ 2021-09-16 11:12 Rosaany 阅读(3193) 评论(0) 推荐(0) 编辑
摘要: 1.SQL类别语句 DDL(data definition language) 创建数据库和表、修改表结构 DML(data manipulation language) 数据表中数据的增删改操作 DQL 数据表中数据的查询操作 DCL 事务提交/回滚等 1.1 DDL操作数据库与表 1.1.1创建 阅读全文
posted @ 2021-09-11 16:47 Rosaany 阅读(66) 评论(0) 推荐(0) 编辑
摘要: 0.创建删除数据库 create Database if not Exists Hivetest; use Hivetest; 1.数据类型 数字类 日期时间 字符串 Misc类 复合类 整型 Tinyint,Smallint,Int,Bigint,长度分别1,2,4,8字节 浮点型 Float,D 阅读全文
posted @ 2021-08-25 11:28 Rosaany 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 语句执行顺序 HQL语句执行顺序 from + join --> where --> select --> group by --> having --> order by --> limit MySQL语句执行顺序 from + join --> where --> group by --> ha 阅读全文
posted @ 2021-08-25 11:28 Rosaany 阅读(990) 评论(0) 推荐(0) 编辑
摘要: 1.综合分析 引用百度百科一句话:综合分析法是指运用各种统计综合指标来反映和研究社会经济现象总体的一般特征和数量关系的研究方法。 在本文展示的例子,主要浅谈某水果店的中各类水果和多个指标存在的关系,使用综合分析方法找出水果店中的各类水果的排名。 2.主要思路 对多指标通过矩阵进行权重划分 确认各指标 阅读全文
posted @ 2021-08-13 15:17 Rosaany 阅读(723) 评论(0) 推荐(0) 编辑
摘要: 1. 接口模块说明 接口模块篇可以专注于把爬取得来的代理以json格式返回,以供我们的爬虫程序使用,从而避开存在反爬机制的网站。 想到接口开发,想要轻量和简单,选择Python编写的Flask Web应用框架再适合不过了。 2. 代码实现 代码环境:Python 3.9.1 第三方依赖包:flask 阅读全文
posted @ 2021-08-03 10:54 Rosaany 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1.检测模块说明 检测模块顾名思义就是验证某个东西然后看结果怎么样,这里文中说的是检测代理是否可用。 当我们从网上爬取代理下来时,比如:proxy = '185.78.228.24:8000',如何检测它是否有效呢? 测试一个代理是否可用的标准,在存储模块篇就提到过了【跳转】,这里再简单过一遍。如果 阅读全文
posted @ 2021-08-02 18:11 Rosaany 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 1.存储模块说明 当我们从网上爬取下来代理时,负责存储工作就主要由存储模块来完成。 存储代理的方式可能有很多,既然保证代理不重复,且要有一个标识来说明代理的可用情况,还要实时处理每个代理。所以这里选用Reids的有序集合(sorted set),Redis有序集合和集合一样不允许存在重复,不同的是每 阅读全文
posted @ 2021-08-02 17:59 Rosaany 阅读(66) 评论(0) 推荐(0) 编辑