爬虫理论
什么是爬虫:
通过编写程序,模拟浏览器上网,让其去互联网上获取数据的过程
反爬机制: 网站可以采取相关的技术手段或者策略阻止爬虫程序进行网站数据的爬取
反爬策略: 让爬虫程序通过破击反爬机制获取数据
爬虫的分类:
- 通用爬虫:获取一整张页面数据
- 聚焦爬虫:根据指定的需求获取页面中指定的局部数据
- 增量式爬虫:用来监测网站数据更新的情况。爬取网站最新更新出来的数据
- robots协议:防君子不妨小人
- http协议:client和Server进行数据交互的形式(超文本传输协议)
- https:安全的http协议
- 对称秘钥加密
- 非对称秘钥加密
- 证书秘钥加密
使用到的请求头或相应头的信息:
- User-Agent:请求载体的身份标识(浏览器)
- Connection:'close'
- content-type
爬虫程序步骤
1指定url,和请求头
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3521.2 Safari/537.36"
}
url = 'https://www.sogou.com/'
2.发起请求
(get方法,传递参数是params)
response = requests.get(url=url,params=params,headers=headers)
(post方法,传递参数是data)
response = requests.post(url=url,data=data,headers=headers))
3.获取响应数据
page_text = response.text #text返回的是字符串类型的数据
4.持久化存储
with open('./sogou.html','w',encoding='utf-8') as f:
f.write(page_text)
print('over!')
爬取药监局的所有企业的详细信息
import requests url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList' headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3521.2 Safari/537.36" } for i in range(1,51): data = { 'on': 'true', 'page': i, 'pageSize': 15, 'productName': '', 'conditionType': 1, 'applyname': '', 'applysn': '' } response = requests.post(url=url,data=data,headers=headers) text = response.json() print('第{}页内容'.format(i)) for t in text['list']: url1 = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById' data1={'id': t['ID']} res = requests.post(url=url1,data=data1,headers=headers) json_text = res.json() print('企业名称:',json_text['epsName'],' 企业地址:',json_text['epsAddress'])