爬虫(九)—— 爬虫高性能
摘要:爬虫高性能 [TOC] 一、并发爬取 线程池或进程池+异步调用:提交一个任务后并不会等待任务结束,而是继续下一行代码 二、高性能 上述无论哪种解决方案其实没有解决一个性能相关的问题:IO阻塞,无论是多进程还是多线程,在遇到IO阻塞时都会被操作系统强行剥夺走CPU的执行权限,程序的执行效率因此就降
阅读全文
posted @
2019-05-08 13:58
凉城旧巷
阅读(233)
推荐(0) 编辑
爬虫(六)——存储库(一)MongoDB存储库
摘要:存储库——MongoDB [TOC] 一、安装MongoDB 4.0 1、安装 (1)可以去官网下载(我是直接选择msi文件的) https://www.mongodb.com/download center (2)运行文件,可以自定义(custom)安装,注意安装的时候一定要 把勾去掉 “Inst
阅读全文
posted @
2019-05-08 13:56
凉城旧巷
阅读(392)
推荐(0) 编辑
爬虫(五)—— 解析库(二)beautiful soup解析库
摘要:解析库——beautiful soup [TOC] 一、BeautifulSoup简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过转换器实现惯用的文档导航、查找、修改文档的方式。Beautiful Soup 3 目前已经停止开发,官网推荐在现
阅读全文
posted @
2019-05-08 13:54
凉城旧巷
阅读(261)
推荐(0) 编辑
爬虫(三)—— 滑动验证码破解
摘要:滑动验证码破解 [TOC] 一、破解步骤 二、代码实现 python from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import
阅读全文
posted @
2019-05-08 13:52
凉城旧巷
阅读(534)
推荐(0) 编辑
爬虫(二)—— 请求库(二)selenium请求库
摘要:selenium请求库 [TOC] 一、什么是selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Sel
阅读全文
posted @
2019-05-08 13:51
凉城旧巷
阅读(276)
推荐(0) 编辑
爬虫(一)—— 请求库(一)requests请求库
摘要:requests请求库 [TOC] 爬虫:爬取、解析、存储 一、请求 1、基本有用的参数 2、请求url编码 3、headers参数——添加请求头中的数据 4、params参数——不用urlencode 5、requests的其他参数 6、get方法与post方法 7、请求的整体流程 二、响应 1、
阅读全文
posted @
2019-05-08 13:48
凉城旧巷
阅读(681)
推荐(0) 编辑