python 网络爬虫概念与HTTP(s)协议

1. 爬虫相关概念

1.1 定义

爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程

1.2 主流语言实现爬虫优劣

php：可以实现爬虫。但是php在实现爬虫中支持多线程和多进程方面做的不好
java：可以实现爬虫。java可以非常好的处理和实现爬虫，是唯一可以与python并驾齐驱且是python的头号劲敌。但是java实现爬虫代码较为臃肿，重构成本较大。
c、c++：可以实现爬虫,需要编写底层流程，并不明智
python：可以实现爬虫。python实现和处理爬虫语法简单，代码优美，支持的模块繁多，学习成本低，具有非常强大的框架（scrapy等

1.3 爬虫分类

1.通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。
主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。
2.聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值。

注：搜索引擎如何抓取互联网上的网站数据？
a)门户网站主动向搜索引擎公司提供其网站的url
b)搜索引擎公司与DNS服务商合作，获取网站的url
c)门户网站主动挂靠在一些知名网站的友情链接中

1.4 robots.txt协议

口头约束，无相关技术支持

2. http与https协议

2.1 HTTP

HTTP协议就是服务器（Server）和客户端（Client）之间进行数据交互（相互传输数据）的一种形式。我们可以将Server和Client进行拟人化

注意点：
1、 HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记
2、 HTTP是无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。
3、 HTTP是媒体独立的
4、 HTTP是无状态：HTTP协议是无状态协议

请求头信息：

accept:浏览器通过这个头告诉服务器，它所支持的数据类型
Accept-Charset: 浏览器通过这个头告诉服务器，它支持哪种字符集
Accept-Encoding：浏览器通过这个头告诉服务器，支持的压缩格式
Accept-Language：浏览器通过这个头告诉服务器，它的语言环境
Host：浏览器通过这个头告诉服务器，想访问哪台主机
If-Modified-Since: 浏览器通过这个头告诉服务器，缓存数据的时间
Referer：浏览器通过这个头告诉服务器，客户机是哪个页面来的 防盗链
Connection：浏览器通过这个头告诉服务器，请求完后是断开链接还是何持链接
X-Requested-With: XMLHttpRequest 代表通过ajax方式进行访问
User-Agent：请求载体的身份标识

响应消息

Location: 服务器通过这个头，来告诉浏览器跳到哪里
Server：服务器通过这个头，告诉浏览器服务器的型号
Content-Encoding：服务器通过这个头，告诉浏览器，数据的压缩格式
Content-Length: 服务器通过这个头，告诉浏览器回送数据的长度
Content-Language: 服务器通过这个头，告诉浏览器语言环境
Content-Type：服务器通过这个头，告诉浏览器回送数据的类型
Refresh：服务器通过这个头，告诉浏览器定时刷新
Content-Disposition: 服务器通过这个头，告诉浏览器以下载方式打数据
Transfer-Encoding：服务器通过这个头，告诉浏览器数据是以分块方式回送的
Expires: -1 控制浏览器不要缓存
Cache-Control: no-cache 
Pragma: no-cache

2.2 HTTPS

HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议，HTTPS是在HTTP上建立SSL加密层，并对传输数据进行加密，是HTTP协议的安全版。
加密方式：

1、SSL加密技术，客户端向服务器发送一条信息，首先客户端会采用已知的算法对信息进行加密，比如MD5或者Base64加密，
接收端对加密的信息进行解密的时候需要用到密钥，中间会传递密钥，（加密和解密的密钥是同一个），密钥在传输中间是被加密的。
这种方式看起来安全，但是仍有潜在的危险，一旦被窃听，或者信息被挟持，就有可能破解密钥，而破解其中的信息。因此“共享密钥加密”这种方式存在安全隐患

2、非对称秘钥加密技术，服务器首先告诉客户端按照自己给定的公开密钥进行加密处理，客户端按照公开密钥加密以后，
服务器接受到信息再通过自己的私有密钥进行解密，这样做的好处就是解密的钥匙根本就不会进行传输，因此也就避免了被挟持的风险。
就算公开密钥被窃听者拿到了，它也很难进行解密，因为解密过程是对离散对数求值，这可不是轻而易举就能做到的事
问题：(1)无法保证接收端向发送端发出公开秘钥的时候，发送端确保收到的是预先要发送的，而不会被挟持。只要是发送密钥，就有可能有被挟持的风险。
(2)效率比较低，它处理起来更为复杂，通信过程中使用就有一定的效率问题而影响通信速度

3、https的证书机制，服务器的开发者携带公开密钥，向数字证书认证机构提出公开密钥的申请，数字证书认证机构在认清申请者的身份，审核通过以后，会对开发者申请的公开密钥做数字签名，然后分配这个已签名的公开密钥，并将密钥放在证书里面，绑定在一起；
服务器将这份数字证书发送给客户端，因为客户端也认可证书机构，客户端可以通过数字证书中的数字签名来验证公钥的真伪，来确保服务器传过

posted @ 2018-10-15 20:46 朝朝哥阅读(954) 评论(0) 收藏举报

刷新页面返回顶部

俄洛伊

python 网络爬虫概念与HTTP(s)协议

1. 爬虫相关概念

1.1 定义

1.2 主流语言实现爬虫优劣

1.3 爬虫分类

1.4 robots.txt协议

2. http与https协议

2.1 HTTP

2.2 HTTPS

公告