摘要: 一. PIL中的Imagegeab模块(效率低,一次需要0.5秒) import time import numpy as np from PIL import ImageGrab img = ImageGrab.grab(bbox=(100, 161, 1141, 610)) img = np.a 阅读全文
posted @ 2020-08-21 12:10 李白斗酒诗百篇 阅读(1745) 评论(0) 推荐(0) 编辑
摘要: 1. 一般经常用的通用思路: 将爬取的url保存到数据库中,当获取下一个url的时候,就去数据库中查询这个url是否已经被访问过了。虽然数据库有缓存,但是当每个url读取数据库中查询的话,会导致效率下降的很快,所以这种策略用的不多,但是是最简单的一种方法。 2. 将访问过的url保存到set中去 通 阅读全文
posted @ 2020-06-30 22:34 李白斗酒诗百篇 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 对爬虫的请求进行调度管理 允许接收requests并且会调度一个request去下载,且具有去重机制 优先级和队列不会被调度器执行(调度器不管优先级的问题),用户使用字段给每个Request对象,可以根据这些优先级去安排想要的优先级顺序 调度器使用两个优先级队列实例。设置在内存队列和磁盘队列中工作。 阅读全文
posted @ 2020-06-30 20:54 李白斗酒诗百篇 阅读(330) 评论(0) 推荐(0) 编辑
摘要: scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且使用起来非常方便。他可以应用在数据采集,数据挖掘,网络异常用户检测,存储数据等方面。 scrapy使用了Twisted异步网络库来处理网络通讯。 框架的组成: 1. scrapy engine:引擎 整 阅读全文
posted @ 2020-06-30 20:53 李白斗酒诗百篇 阅读(176) 评论(0) 推荐(0) 编辑
摘要: Django是一个开发源代码的web应用框架,由Python写成,用于后台程序(服务器程序)。在众多的Python web框架中是重量级选手中最有代表性的一位。许多成功的网站和app都基于Django。 使用Django,只要很少的代码就可以开发完成一个正式网站所需要的大部分内容,并进一步开发出全功 阅读全文
posted @ 2020-06-30 17:15 李白斗酒诗百篇 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 在用户输入一个单词的时候,判断这个单词是否拼写错误,如果拼写错误,找到正确的单词并且返回。 思路: 1.准备词库 2.判断一下输入的单词是否在词库中,如果在,输出 3.如果不在,找到与之相对的编辑距离为1的所有单词 4.遍历这些单词,并输出在吃苦中出现次数最多的单词 中文单词拼写检查思路: 1.用所 阅读全文
posted @ 2020-06-25 11:13 李白斗酒诗百篇 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 朴素:在给定类别的情况下,各个特征相互独立 贝叶斯公式:P(A|B)=P(A)P(B|A)/P(B) 朴素贝叶斯:P(特征|类别)=P(特征)P(类别|特征)/P(类别) 核心思想:算一下概率,那种类别概率大,就分为那种类别。 在scikit-learn中的实现: 1.高斯贝叶斯:数据集符合高斯(正 阅读全文
posted @ 2020-06-25 11:03 李白斗酒诗百篇 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 线性回归的输出值的范围通常是无法限定的。逻辑回归通过(sigmoid函数)将其转化为(0,1)区间的数值。 逻辑回归可以被理解为时一个被sigmoid函数归一化后的线性回归,也可以被视为一种广义线性模型。 逻辑回归应用举例:垃圾短信分类。可以使用TF-IDF来抽取短信的特征向量,然后用逻辑回归分类: 阅读全文
posted @ 2020-06-24 16:35 李白斗酒诗百篇 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 机器学习分类: 监督学习: 回归:预测的变量是连续的 分类:预测的变量是离散的 无监督学习: 聚类 半监督学习: 人工标记数据太贵 无监督有时不靠谱 机器学习常见问题 欠拟合:模型过于简单,参数不够 过拟合:模型太复杂。参数过多,特征数目过多。 三个集合: 训练集:生成模型 测试集:测试模型 开发集 阅读全文
posted @ 2020-06-23 21:32 李白斗酒诗百篇 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 对于有序表,在顺序查找中,如果第一个数据项不匹配查找项的话,那最多患有n-1个待比对的数据项。 那么,有没有方法利用有序表的特性,迅速缩小待比对数据项的范围?二分查找 二分查找: 从列表中间开始比对:如果列表中间的祥匹配查找项,则查找结束如果不匹配,那么就有两种情况: 1.列表中间项比查找项大,那么 阅读全文
posted @ 2020-06-23 21:17 李白斗酒诗百篇 阅读(207) 评论(0) 推荐(0) 编辑