爬虫笔记
requests库有request,get,head方法是常用的
其中request方法中有一个子方法是headers,可以常看当前使用的
引擎默认是python引擎,很容易被拦截,一般要改成Mozilla引擎
就是写个键值对,然后用这个键值对替换原来的headers,在get的时候替换
例如kv={'user-agent':'Mozilla'/5.0}
更改爬虫引擎
然后get的时候用kv覆盖原来的headers,r=requests.get(url,headers=kv)
这样爬虫的时候用的就是自定义的引擎啦,就不会被亚马逊拦截啦,但还是会被百度拦截,不知道为什么
键值对就是字典哦
使用百度搜索接口,调用params
url写成http://www.baidu.com/s
定义个键值对来保存要附加在链接后面的内容,mv={'wd':'为什么会出现验证码'}
然后get的时候把params的值设定为mv就行了,mv那个键值对可以设置成要求用户输入
r=requests.get(url,params)