摘要: Python爬虫的原理:1通过URLopen()来获取到url页面, 这个过程可以加代理 2这个页面上都是字符串,所以我们而通过字符串查找的方法来获取到目标字符串,用到了正则来匹配目标re.findall(pattern,string) 或者 查找页面的字符串,bs4.Beautifulsoup(h 阅读全文
posted @ 2017-04-18 14:12 Braveliberty 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 为request添加一个代理,及将浏览器头部信息加入,随机从ip列表中拿出一个ip进行访问 注意函数参数的形式,如request.proxyhandler(协议,地址) 阅读全文
posted @ 2017-04-18 06:56 Braveliberty 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 常用的urllib库有三个类:request,parse,error,request主要完成对url的请求,如proxy,opener,urlopen,parse主要完成对html的解析,error负责异常处理。 打开一个url,返回 <class 'http.client.HTTPResponse 阅读全文
posted @ 2017-04-18 06:49 Braveliberty 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 1 >>> re.findall(r'http://www|www\.[a-z0-9-]*\.[a-z]{2,3}','www.baidu.com') 2 ['www.baidu.com'] 3 >>> re.findall(r'http://www|www\.[a-z0-9-]*\.[a-z]{2,3}','www.baidu.cn') 4 ['www.baidu.cn'] 5 >>... 阅读全文
posted @ 2017-04-18 06:35 Braveliberty 阅读(143) 评论(0) 推荐(0) 编辑