Python爬虫学习：一些关于爬虫的知识的充电

什么是Http和Https

URL：（Uniform Resource Locator的缩写），统一资源定位符。一个url的组成：

scheme://host:port/path/?key=value

在浏览器中请求一个url，浏览器会对这个url进行一个编码。除了英文字母，数字和部分符号以外，其他的全部使用百分号+十六进制码值进行编码

在Http协议中定义了八种请求方式，这里介绍两种最常用的

在http协议中，向服务器发送一个请求，数据分为三个部分，把数据放在url中（get请求）、把数据放在body请求体当中（post请求）、把数据放在head中。

User-Agent：浏览器的标识。如果我们不填写的话，默认的爬虫的User-Agent就是Python，浏览器可以轻易知道你是一个爬虫，所以建议每次都带上User-Agent
Referer：表明当前这个请求是从哪一个url过来的。这个一般也可以做成反扒的，如果不是指定的url跳转过来的就返回一个假数据
Cookie：http协议是无状态协议，也就是说，同一个人发送来个请求，服务器是无法分辨是一个人发送的还是两个人发送的，因此就有了cookie作为一个标识，标识是我，我们做登录的时候必须用到Cookie

200：请求正常，也就是成功
301：永久重定向，也就是说服务器指定的跳转页面、
302：临时重定向，eg：有些页面必须登录才能访问，而你没有登录，就会跳转到登录的页面
400：找不到
403：服务器拒绝访问，权限不够，在Django中，Post请求的时候，总会有一个csrf_token 的东西，如果没有的，而服务器有开启的csrf的中间件，呵，妥妥的403
500：服务器的内部错误，也就是服务器出BUG了

posted @ 2018-07-21 23:43 "%201 阅读(217) 评论(0) 收藏举报

刷新页面返回顶部