相关基础概念
Robots协议:**
每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。而搜索引擎则会按照Robots协议给与自己的权限来进行抓取。Robots协议已经成为所有搜索引擎必须遵守的国际惯例。
例:淘宝的robots.txt查看地址为https://www.taobao.com/robots.txt
- 什么是爬虫
- 通过编写程序,模拟浏览器上网,让其取互联网上获取数据的过程
-
爬虫的分类
-
通用爬虫: 获取一整张一面数据
-
聚焦爬虫: 根据指定的需求获取页面中指定的局部数据
-
增量式爬虫: 用来检测网站数据更新的情况, 爬取网站最新更新出来的数据
-
- 反爬机制: 网站可以采取相关的技术手段或者策略阻止爬虫程序进行网站数据的爬取
- 反反爬策略: 让爬虫程序通过破解反爬机制获取数据
-
http协议: clinet和server进行数据交互的形式
-
使用到的头信息:
-
User-Agent: 请求载体的身份标识
-
Connection: 'close’
-
content-type: 数据类型
-
-
https:安全的http协议
- 加密方式
- 对称加密
- 非对称加密
- 证书秘钥加密
- 加密方式
对称密码体制
即加密秘钥与解密秘钥是使用相同的密码体制
数据加密标准DES术语对称密钥密码体制.它由IBM公司研制出,于1977年被美国定为联邦信息标准,DES是一种分组密码,在加密前,先对整个的明文进行分组.每一个组为64位长的二进制数据.然后对每一个64位二进制数据进行加密处理,产生一组64位密文数据.最后将各组密文串接起来,即得出整个的密文.使用的密文占有64位,实际密钥长度为56位,外加8位用于奇偶校验
DES的保密性仅取决于对密钥的保密,而算法是公开的
公钥密码体制
又称为公开密钥密码体制,概念是由斯坦福大学的研究人员Diffie与Hellman与1976年提出的.公钥密码体制使用不同的加密密钥与解密密钥