爬虫操作

#导入模块
import requests
# 请求的路径
url = 'https://www.baidu.com/?tn=88093251_37_hao_pg'

resp = requests.get(url)
# 指定字符编码
resp.encoding = 'utf-8'
print(resp.text)
# print(resp.content)

# 将获取到的内容写入到文件当中
with open('index.html','w',encoding='utf-8') as fi:
fi.write(resp.text)
==================================
# get 请求的特点, 参数在url当中,把url的内容携带进去

## requests的使用技巧

# **请求SSL证书验证**

# ​ 有时候我们使用了抓包工具,这个时候由于抓包工具提供的证书并不是由受信任的数字证书颁发机构颁发的,所以证书的验证会失败,所以我们就需要关闭证书验证。在请求的时候把verify参数设置为False就可以关闭证书验证了。


import requests
# resp = requests.get(url,verify=False)


# **设置超时**

# ​ 使用IP代理时,会遇到请求时间过长,可以设置超时时间


# import requests 
# resp = requests.get(url,timeout=2)


# **重定向**

# ​ 很多网站是http开头,为了不影响老客户,原网站不动,当访问http的原网址时,重定向到新的https网址,在requests中 allow_redirects默认是True,
# 如果是False则不允许重定向,也就无法重定向新网址获取数据。


# import requests
# resp = requests.get(url, allow_redirects=False)


# **session的使用**

# ​ session方法是requests库发起请求的一种方法,这种方法会自动保存访问页面得到的cookie值,
# 从而再次访问的时候会自动携带cookie,使得操作cookie方便,不需要我们自己添加cookie了。常用于登录;

# ​ 基本的使用方法与requests.get 相似,使用的session的时候需要先创建session对象


# 创建session对象
# session=requests.session()
# 添加请求头
# session.headers=headers
# 发送请求
# res_ss=session.get(index_url)

==============================
代理PI的方法和使用
import requests


url = 'http://httpbin.orq/ip'
proxies = {'http':'http://47.106.105.236:80'}
# 使用方法
resp = requests.get(url,proxies=proxies)
print(resp.text)
==============================
1,post更安全(不会作为url的一部分,不会被缓存,保存在服务日志,以及浏览器浏览记录中)
2,post发送的数据更大,(get有长度限制,不能大于2KB)
3,post能发送更多的数据类型(get只能发送ASCII字符)
4,post用于修改和写入数据,get一般用于搜索排序和筛选之类的操作

那些地方我们会用到post请求
1,注册/登入(post比get请求安全)
2,需要传输大文本的时候,post对数据长度没有要求
=============================
pip
'''
pip环境变量
查看有几个pythin,在哪个位置
按住windows+R,回车输入where python

在桌面的此电脑找到python打开,找到Scripts文件打开,里面的pip.exe就是下载程序
复制路径,在桌面找到此电脑右击属性,打开设置,在设置里面找到高级系统设置进去
找到环境变量,点击环境变量,找到Path,点击Path,在里面点击新建,粘贴路径,粘贴好后在后面加个\
添加的目录必须在WindowsApps上面,移动方法,选中文件点击上移

也可以在复制文件的位置,输入cmd进入电脑终端,在这里输入 pip install 下载模块名
'''
'''

you-get
如果遇到想要下载的音乐,视频,图片能够访问却下载不了的,那么可以使用python内置库you-get进行下载
保存在自己的电脑,避免资源丢失
下载you-get
直接下载:pip install you-get
换源下载:pip install you-get -i https://pypi.douban.com/simpe
you-get命令:(在电脑按住windows+r ,输入cmd 然后输入下面代码运行)
you-get 资源链接 直接下载,默认下载到c盘
you-grt -o 存放路径 -O 文件名 资源链接 -o修改存放路径 , -O修改资源名称
列如: you-get -o E:\lianxixiazai -O 斗破 https://v.qq.com/x/cover/mzc0020027yzd9e/x0043ywbm8k.html

you-get -i 资源链接 查看当前资源的格式
URL 资源链接 下载对应的清晰度,URL是使用-i查看到的清晰度链接
'''
'''
ctrl+a 全选,ctrl+r 批量操作
(.*?):(.*) 全部
'$1':'$2', 添加的符号
'''
=================================
爬虫步骤
'''
写爬虫的步骤
1,找url
2,解析json , re正则,xpath, bs4, parsel
3,提取,保存
'''
'''
关闭证书认证:
import requests
resp = requests.get(url,verify=False)

超时设置(访问量过大时使用)
import requests
resp = requests.get(url,timeout=2)

重定向(访问旧网址跳转到新网址)
import requests
resp = requests.get(url,allow_redirects=False)

session的使用:(当前用户信息)
# 创建session对象
session=requests.session()
# 添加请求头
session.headers=headers
# 发送请求
res_ss=session.get(index_url)

'''
'''
json(字符串)--json.loads()-->python(数据类型)
json(字符串)<--json.dumps()--python(数据类型)

包含json的文件对象--json.load()-->python数据类型
包含json的文件对象<--json.dump()--python数据类型



'''











posted @ 2022-08-17 15:17  冬天不下雨  阅读(108)  评论(0编辑  收藏  举报