爬虫防屏蔽之代理服务器运用

这里，提供一个代理服务器爬取百度的例子：

最后返回爬取数据的长度

 1 import urllib.request
 2 
 3 #代理函数 设置代理ip (代理ip在www.xicidaili.com网站免费提供,部分ip无效)
 4 #urlopen不支持
 5 def use_proxy(url,peoxy_addr):
 6     proxy=urllib.request.ProxyHandler({"http":proxy_addr})
 7     opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
 8     #添加全局
 9     urllib.request.install_opener(opener)
10     #打开网页
11     data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
12     return data
13     
14 proxy_addr="171.38.36.45:8123"
15 url="http://www.baidu.com"
16 data=use_proxy(url,proxy_addr)
17 print(len(data))

最后若输出data长度这说明成功爬到数据

posted @ 2018-09-15 22:37 发酸的丶蛋炒饭阅读(318) 评论(0) 编辑收藏举报

刷新页面返回顶部

发酸的丶蛋炒饭

爬虫防屏蔽之代理服务器运用

公告