爬虫requests的高级用法

代理操作

- 什么是代理?
    - 就是代理服务器
- 代理的网站:
    - 快代理
    - 西祠代理
    - goubanjia
- 代理知识:https://help.kuaidaili.com/wiki/
- 匿名度:
    - 透明:对方服务器可以知道你使用了代理,并且也知道你的真实IP
    - 匿名:对方服务器可以知道你使用了代理,但不知道你的真实IP
    - 高匿:对方服务器不知道你使用了代理,更不知道你的真实IP。
- 类型:
    - http:该类型的代理ip只可以发起http协议头对应的请求
    - https:该类型的代理ip只可以发起https协议头对应的请求

requests的get和post方法常用的参数:
  • url
  • headers
  • data/params
  • proxies
import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3521.2 Safari/537.36'
}
url = 'https://www.baidu.com/s?wd=ip'
res_text = requests.get(url=url,headers=headers,proxies={'https':'122.226.68.6:63000'}).text
with open('ip.html','w',encoding='utf-8') as f:
    f.write(res_text)
    
print('当前路径保存一个ip.html页面,是查看的当前访问百度的客户端IP')

  

 

cookie相关操作

- cookie:可是使得服务器端记录客户端的相关状态
- session:使用requests.Session(实例化对象),来请求页面,(post,get)请求的页面,携带着cookie.

 
 

 

posted on 2019-05-29 15:44  哎呀!土豆  阅读(105)  评论(0编辑  收藏  举报

导航