凉城旧巷
Python从入门到自闭,Java从自闭到放弃,数据库从删库到跑路,Linux从rm -rf到完犊子!!!
摘要: 爬虫高性能 [TOC] 一、并发爬取 线程池或进程池+异步调用:提交一个任务后并不会等待任务结束,而是继续下一行代码 二、高性能 ​ 上述无论哪种解决方案其实没有解决一个性能相关的问题:IO阻塞,无论是多进程还是多线程,在遇到IO阻塞时都会被操作系统强行剥夺走CPU的执行权限,程序的执行效率因此就降 阅读全文
posted @ 2019-05-08 13:58 凉城旧巷 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 见MySQL相关 阅读全文
posted @ 2019-05-08 13:57 凉城旧巷 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 存储库——MongoDB [TOC] 一、安装MongoDB 4.0 1、安装 (1)可以去官网下载(我是直接选择msi文件的) https://www.mongodb.com/download center (2)运行文件,可以自定义(custom)安装,注意安装的时候一定要 把勾去掉 “Inst 阅读全文
posted @ 2019-05-08 13:56 凉城旧巷 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 见Redis中 阅读全文
posted @ 2019-05-08 13:56 凉城旧巷 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 解析库——beautiful soup [TOC] 一、BeautifulSoup简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过转换器实现惯用的文档导航、查找、修改文档的方式。Beautiful Soup 3 目前已经停止开发,官网推荐在现 阅读全文
posted @ 2019-05-08 13:54 凉城旧巷 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 使用re正则来匹配解析 阅读全文
posted @ 2019-05-08 13:53 凉城旧巷 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 滑动验证码破解 [TOC] 一、破解步骤 二、代码实现 python from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import 阅读全文
posted @ 2019-05-08 13:52 凉城旧巷 阅读(477) 评论(0) 推荐(0) 编辑
摘要: selenium请求库 [TOC] 一、什么是selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Sel 阅读全文
posted @ 2019-05-08 13:51 凉城旧巷 阅读(271) 评论(0) 推荐(0) 编辑
摘要: requests请求库 [TOC] 爬虫:爬取、解析、存储 一、请求 1、基本有用的参数 2、请求url编码 3、headers参数——添加请求头中的数据 4、params参数——不用urlencode 5、requests的其他参数 6、get方法与post方法 7、请求的整体流程 二、响应 1、 阅读全文
posted @ 2019-05-08 13:48 凉城旧巷 阅读(605) 评论(0) 推荐(0) 编辑