Python爬虫2------爬虫屏蔽手段之代理服务器实战

 

 

1、代理服务器:

一个处于客户端与互联网中间的服务器,如果使用代理服务器,当我们浏览信息的时候,先向代理服务器发出请求,然后由代理服务器向互联网获取信息,再返回给我们。

 

2、代码:

import urllib.request
#proxy_addr="117.36.103.170:8118",为代理服务器的IP和端口
#url为要爬取数据的地址
def use_proxy(url,proxy_addr):
    #采用ProxyHandler函数来设置代理服务器,函数参数为字典,字典的键为"http",值为代理服务器的IP地址,IP地址和端口可以在www.xicidaili.com中找。
    proxy=urllib.request.ProxyHandler({"http":proxy_addr})
    #建立opener,bulid_opener的第一个参数为proxy,第二个参数固定为urllib.request.HTTPHandler
    opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    #将opener设置为全局,下面的操作就可以运用该opener了。
    urllib.request.install_opener(opener)
    data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
    return data

proxy_addr="125.118.79.44:6666"
url="http://www.baidu.com"
data=use_proxy(url,proxy_addr)
print(len(data))

 

posted on 2018-05-16 13:12  吱吱了了  阅读(395)  评论(0编辑  收藏  举报

导航