摘要: 1. 介绍 对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,需要学习一些更加高级的内容和工具来方便我们的爬取。 关于requests 库的基本用法。 2. 安装 利用 pip 安装 3. 基本请求 3.1 get请求 参数是字典,我们也可以传递json类型的参数: 3.2 post请 阅读全文
posted @ 2020-05-18 10:11 |Thresh| 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 1. Cookie 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cooki 阅读全文
posted @ 2020-05-18 10:04 |Thresh| 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 1. 伪装自己 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作 1.1 设置请求头 其中 代表用的哪个请求的浏览器 代码如下: 对付防盗链,服务器会识别headers中的referer是不是它自己,如果不是,有的服务器不会响应,所以我 阅读全文
posted @ 2020-05-18 09:56 |Thresh| 阅读(193) 评论(0) 推荐(1) 编辑
摘要: 1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存 阅读全文
posted @ 2020-05-18 09:53 |Thresh| 阅读(343) 评论(0) 推荐(0) 编辑