爬虫代理-代理在爬虫中的应用

一、爬虫代理理论

  • 网络代理的作用 :

    • 一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问。所以我们需要设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。
  • 什么是代理 :

    • 代理服务器
    • 突破自身IP访问的限制
    • 隐藏自身真实IP
  • 代理相关网站 :

二、代理在爬虫中的应用

import requests

proxy = "113.116.50.182:808"
proxies = {
        "http":"http://"+proxy,
        "https":"https://"+proxy,
}
try:
        response = requests.get("http://httpbin.org/ip",proxies=proxies)
        print(response.text)
except requests.exceptions.ConnectionError as e:
        print("Error",e.args)
  • 对于requests库中使用socks5代理
import requests
import socks
import socket

socks.set_default_proxy(socks.SOCKS5,"113.116.50.182",807)
socket.socket = socks.socksocket

try:
        response = requests.get("http://httpbin.org/ip")
        print(response.text)
except requests.exceptions.ConnectionError as e:
        print("Error",e.args)
posted @ 2021-05-09 12:41  SRE运维充电站  阅读(214)  评论(0编辑  收藏  举报