python:爬虫2——隐藏自己
一、添加浏览器
方法一:
head['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' req = urllib.request.Request(url, data, head) response = urllib.request.urlopen(req)
只能在Request对象上加head,而urlopen(url, data, head)是错误的
方法二:
req = urllib.request.Request(url, data) req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
先生成req,在动态添加
二、但高频率多次访问一个网站,一样会被服务器发现
解决办法一:延迟提交时间
import time while True: word = input('请输入要翻译的英文(“q!”退出程序):') if word == 'q!': break ........ time.sleep(5)
解决办法二:使用代理
(工作原理)把需要访问的内容告诉代理,代理把它看到的所有东西发给我
但免费的ip地址可能不稳定,因此我们可以建立一个ip list,多加几个ip进去,每次随机使用一个。还可以创建一个采集ip的程序
random.choice(list)
内容大部分引用王良明、赖国明著作,敬谢!