爬虫学习--Day4(小猿圈爬虫开发_2)
requests模块
- urllib模块
- requests模块
requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
作用:模拟浏览器发送请求。
如何使用:(requests模块的编码流程)
- 指定url
- 发起请求
- 获取响应数据
- 持久化存储
环境的安装:
pip install requests
实战编码:
- 需求:爬取搜狗首页页面的数据
1 # coding=gbk 2 #Created on 2019/7/7 3 #@author: XiaoHu 4 5 # 需求:爬取搜狗首页的页面数据 6 import requests 7 if __name__ == "__main__": 8 #step_1 指定url 9 url = 'https://www.sogo.com/' 10 #step_2 发起请求 11 #get方法会返回一个响应对象 12 response=requests.get(url=url) 13 #step_3 获取响应数据.text返回的是字符串形式的响应数据 14 page_text=response.text 15 print(page_text) 16 #step_4 持久化存储 17 with open('./sogo.html','w',encoding='utf-8') as fp: 18 fp.write(page_text) 19 print('爬取数据结束!!!!!!')