随笔档案「2020年5月18日」：python爬虫学习笔记(六)-Request库的用法 ... - ｜Thresh｜

2020年5月18日

摘要： 1. 介绍对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，需要学习一些更加高级的内容和工具来方便我们的爬取。关于requests 库的基本用法。 2. 安装利用 pip 安装 3. 基本请求 3.1 get请求参数是字典，我们也可以传递json类型的参数： 3.2 post请阅读全文

posted @ 2020-05-18 10:11 ｜Thresh｜阅读(205) 评论(0) 推荐(0)

python爬虫学习笔记(五)-URLError与Cookie

摘要： 1. Cookie 为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cooki 阅读全文

posted @ 2020-05-18 10:04 ｜Thresh｜阅读(226) 评论(0) 推荐(0)

python爬虫学习笔记(四)-urllib库的高级用法

摘要： 1. 伪装自己有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作 1.1 设置请求头其中代表用的哪个请求的浏览器代码如下：对付防盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的服务器不会响应，所以我阅读全文

posted @ 2020-05-18 09:56 ｜Thresh｜阅读(206) 评论(0) 推荐(1)

python爬虫学习笔记(三)-爬取数据之urllib库

摘要： 1. 小试牛刀怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存阅读全文

posted @ 2020-05-18 09:53 ｜Thresh｜阅读(392) 评论(0) 推荐(0)

｜Thresh｜的博客

公告