06 2019 档案
如何提升爬虫的性能
摘要:一:背景知识 爬虫的本质就是一个socket客户端与服务端通信的过程,如果我们有多个url待爬取,只用一个线程并且采用串行的方式执行,那么只能等待爬取结束后才能继续下一个,效率非常的低 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu的利 阅读全文
posted @ 2019-06-29 22:46 Andy_ouyang 阅读(445) 评论(0) 推荐(0)
selenium模块
摘要:一 :selenium简述 二:安装 我们在使用过程中要安装两种浏览器,有界面的浏览器,chrome,无界面的浏览器phantomjs 我们所熟知的RPA中的有些组件就是按照有有界面的浏览器和selenium定制的 1 有界面的浏览器 #安装:selenium+chromedriver pip3 i 阅读全文
posted @ 2019-06-03 14:18 Andy_ouyang 阅读(182) 评论(0) 推荐(0)
2 request的get和post方法
摘要:requests的get方法 1 在百度里面查询关键字的方法,并获取带百度当前页面 2 get请求给知乎 3 get请求给githup requests的post方法(模拟登陆githup) 3 爬取梨视频 废话不多说,看勇哥写的代码 4 响应response 1 response的属性 2 编码问 阅读全文
posted @ 2019-06-01 16:20 Andy_ouyang 阅读(3696) 评论(0) 推荐(0)
进程池的用法
摘要:这是一个函数,没有返回值和其他的函数交互的方式 要是有函数参数的调用 阅读全文
posted @ 2019-06-01 15:04 Andy_ouyang 阅读(129) 评论(0) 推荐(0)