摘要: 线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 线性回归利用线性回归方程的最小平方函数对一个或多个自变量与因变量之间的关系进行建模,这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量的情况叫做多 阅读全文
posted @ 2020-06-23 11:37 李白斗酒诗百篇 阅读(242) 评论(0) 推荐(0) 编辑
摘要: KNN算法是解决分类问题的最简单的算法。同时也是最常用的算法。KNN算法也可以称作k近邻算法,是指K个最近的数据集,属于监督学习算法。 开发流程: 1.加载数据,加载成特征矩阵X与目标向量Y。 2.给定一个新的数据,算出新数据和所有数据的距离,找到距离最近的前K个数据,K的取值范围一般是3-15个。 阅读全文
posted @ 2020-06-23 10:43 李白斗酒诗百篇 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 面试场景: 要求对正在爬取的内容与mysql数据库中的数据进行比较去重 解决方式: 通过Redis来作为中间件,通过url来确保爬过的数据不会再爬,做到增量爬取。 Redis数据库其实就是一个中间件,因为爬虫爬取的数据并不能直接拿去和MySQL中的数据进行比较。那我们就需要将MySQL数据库现有的数 阅读全文
posted @ 2020-06-20 18:39 李白斗酒诗百篇 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 1.封 User-agent:判断用户师傅是浏览器访问。 解决方法:添加多个UA/更换UA 2.封ip:判断请求来源的ip地址,如果一个ip过于频繁的访问一个网站,有可能会当做爬虫封掉。 解决方法:使用代理ip发送请求 案例:拉钩招聘数据 3.封cookie:同一个账号,请求频率过高或请求数量过高, 阅读全文
posted @ 2020-06-18 09:32 李白斗酒诗百篇 阅读(858) 评论(0) 推荐(0) 编辑
摘要: 所谓的三次握手即TCP连接的建立。这个连接必须是一方主动打开,另一方被动打开的。即三次网络传输 举个简单例子: 把客户端比作男孩,服务器比作女孩。用他们的交往来说明“三次握手”过程: (1)男孩喜欢女孩,于是写了一封信告诉女孩:我爱你,请和我交往吧!;写完信之后,男孩焦急地等待,因为不知道信能否顺利 阅读全文
posted @ 2020-06-12 10:48 李白斗酒诗百篇 阅读(201) 评论(0) 推荐(0) 编辑