爬虫笔记

  requests库有request,get,head方法是常用的

其中request方法中有一个子方法是headers,可以常看当前使用的

引擎默认是python引擎,很容易被拦截,一般要改成Mozilla引擎

就是写个键值对,然后用这个键值对替换原来的headers,在get的时候替换

例如kv={'user-agent':'Mozilla'/5.0}

 

更改爬虫引擎

然后get的时候用kv覆盖原来的headers,r=requests.get(url,headers=kv)

这样爬虫的时候用的就是自定义的引擎啦,就不会被亚马逊拦截啦,但还是会被百度拦截,不知道为什么

键值对就是字典哦

使用百度搜索接口,调用params

url写成http://www.baidu.com/s

定义个键值对来保存要附加在链接后面的内容,mv={'wd':'为什么会出现验证码'}

然后get的时候把params的值设定为mv就行了,mv那个键值对可以设置成要求用户输入

r=requests.get(url,params)

 

posted @ 2020-04-15 10:56  写博客是第一驱动力  阅读(116)  评论(0)    收藏  举报