爬虫-第一篇-requests模块
http和https协议
- http:
- 通俗概念:HTTP协议就是服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种形式
- 常用的头信息:
- User-Agent:请求载体的身份标识
- Connection:close
- content-type:
- https:
- 概念:安全的http协议
- 证书
- 对称秘钥加密
- 非对称秘钥加密
- 证书秘钥加密方式
爬虫相关概述
-
爬虫概念:
- 通过编写程序模拟浏览器上网,然后让其去互联网上爬取/抓取数据的过程
- 模拟:浏览器就是一款纯天然的原始的爬虫工具
- 通过编写程序模拟浏览器上网,然后让其去互联网上爬取/抓取数据的过程
-
爬虫分类:
- 通用爬虫:爬取一整张页面中的数据. 抓取系统(爬虫程序)
- 聚焦爬虫:爬取页面中局部的数据.一定是建立在通用爬虫的基础之上
- 增量式爬虫:用来监测网站数据更新的情况.以便爬取到网站最新更新出来的数据
-
风险分析
- 合理的的使用
- 爬虫风险的体现:
- 爬虫干扰了被访问网站的正常运营;
- 爬虫抓取了受到法律保护的特定类型的数据或信息。
- 避免风险:
- 严格遵守网站设置的robots协议;
- 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
- 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
-
反爬机制
- 门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取。
-
反反爬策略
- 爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据
-
robots.txt协议:
文本协议,在文本中指定了可爬和不可爬的数据说明.该协议只是相当于口头的协议,并没有使用相关技术进行强制管制,所以该协议是防君子不防小人.参见淘宝robots.txt协议
Anaconda简介使用
-
什么是Anaconda
集成环境:基于数据分析和机器学习的开发环境
-
jupyter:超级终端.就是Anaconda集成环境中提供的一种基于浏览器的可视化开发工具
-
启动命令:jupyter notebook
cell都是有两种常用的模式
- Code:编写python程序
- markdown:编写笔记
快捷键:
-
插入cell :a b
-
删除:x
-
切换cell模式:y,m
-
执行:shift+enter
-
tab 自动补全
-
shift+tab打开帮助文档
requests模块爬取数据
requests模块
- 作用:一个基于网络请求的模块.作用就是用来模拟浏览器发起请求.
- 编码流程:
- 指定url
- 进行请求的发送
- 获取响应数据(爬取到的数据)
- 持久化存储
- 环境的安装:pip install requests
示例一:基于搜狗编写一个简易的网页采集器
#解决中文乱码&UA伪装
wd = input('enter a key:')
url = 'https://www.sogou.com/web'
#存储的就是动态的请求参数
params = {
'query':wd
}
#即将发起请求对应的头信息
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
#一定需要将params作用到请求中
#params参数表示的是对请求url参数的封装
#headers参数是用来实现UA伪装
response = requests.get(url=url,params=params,headers=headers)
#手动修改响应数据的编码
response.encoding = 'utf-8'
page_text = response.text
fileName = wd+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(wd,'下载成功!')
示例二:爬取豆瓣电影的电影详情数据
分析:当滚轮滑动到底部的时候,发起了一个ajax的请求,且该请求请求到了一组电影数据
- 动态加载的数据:就是通过另一个额外的请求请求到的数据
- ajax生成动态加载的数据
- js生成动态加载的数据
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
url = 'https://movie.douban.com/j/chart/top_list'
start = input('enter a start:')
limit = input('enter a limit')
#处理请求参数
params = {
'type': '5',
'interval_id': '100:90',
'action': '',
'start': start,
'limit': limit,
}
response = requests.get(url=url,params=params,headers=headers)
#json返回的是序列化好的对象
data_list = response.json()
fp = open('douban.txt','w',encoding='utf-8')
for dic in data_list:
name = dic['title']
score = dic['score']
fp.write(name+':'+score+'\n')
print(name,'爬取成功')
fp.close()
示例三:post请求爬取肯德基餐厅位置信息
post_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
city = input('enter a city name:')
data = {
'cname': '',
'pid': '',
'keyword': city,
'pageIndex': '3',
'pageSize': '2',
}
#data参数表示的就是get方法中的params
response = requests.post(url=post_url,data=data,headers=headers)
response.json()
如何判定一张页面中是否存在动态加载的数据?
-
抓包工具进行局部搜索
-
如果判定出页面中有动态加载的数据如何进行数据的定位?
- 使用抓包工具进行全局搜索
-
对一个陌生的网站数据进行爬取前一定要判定你爬取的数据是否为动态加载的!!!
-
爬取企业详情信息:http://125.35.6.84:81/xk/
-
分析:
- 1.网站的首页和企业的详情页的数据都是动态加载出来的
- 2.分析某一家企业的企业详情数据是怎么来的?
- 企业详情数据时通过一个ajax请求(post)请求到的.
- 请求对应的url:http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById
- 该请求携带了一个参数id:xxdxxxx
- 结论:
- 1.每家企业详情页的数据都是通过一个post形式的ajax请求请求到的
- 2.每家企业对应的ajax请求的url都一样,请求方式都是post,只有请求参数id的值不一样.
- 3.只需要获取每一家企业对应的id值即可获取每一家企业对应的详情数据
- 需要获取每一家企业的id值
- 思路:每一家企业的id值应该存储在首页对应的相关请求或者响应中.
- 结论:每一家企业的id值是存储在首页中的某一个ajax请求对应的响应数据中,只需要将该响应数据中企业的id提取/解析出来后即可.
示例三:药监局详情
#要请求到没一家企业对应的id
url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
data = {
'on': 'true',
'page': '1',
'pageSize': '15',
'productName': '',
'conditionType': '1',
'applyname': '',
'applysn': '',
}
fp = open('./company_detail.txt','w',encoding='utf-8')
#该json()的返回值中就有每一家企业的id
data_dic = requests.post(url=url,data=data,headers=headers).json()
#解析id
for dic in data_dic['list']:
_id = dic['ID']
# print(_id)
#对每一个id对应的企业详情数据进行捕获(发起请求)
post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
post_data = {
'id':_id
}
#json的返回值是某一家企业的详情信息
detail_dic = requests.post(url=post_url,data=post_data,headers=headers).json()
company_title = detail_dic['epsName']
address = detail_dic['epsProductAddress']
fp.write(company_title+':'+address+'\n')
print(company_title,'爬取成功!!!')
fp.close()