摘要: 网络爬虫(又称网络蜘蛛、网络机器人)就是模拟客户端(浏览器)发送网络请求(伪造请求),然后接收请求响应。一种按照一定的规则,自动地抓取互联网信息的程序。 所谓"模拟"就是去照着做,说白了,就是让爬虫得到跟浏览器一样的响应。而且,只要浏览器能够做的事情,原则上,爬虫都能做。 补充一点:比如你爬了某鱼平 阅读全文
posted @ 2019-08-11 20:34 root01_barry 阅读(133) 评论(0) 推荐(0) 编辑
摘要: requests_html内建提供了一个比较好用的render()方法, 但实现这个方法需要依赖Chromium,直接写好代码然后运行,如果没有科*学上网,在大陆几乎是不可能下载成功的。 科*学上网是最好的解决办法,本人比较笨不会设置代理,也找不到服务器,于是采用了手动下载的方式。 首先,浏览器需要 阅读全文
posted @ 2019-08-11 15:57 root01_barry 阅读(1183) 评论(0) 推荐(0) 编辑