2017 年 4月 18 日随笔档案 - Braveliberty

2017年4月18日

摘要： Python爬虫的原理：1通过URLopen（）来获取到url页面，这个过程可以加代理 2这个页面上都是字符串，所以我们而通过字符串查找的方法来获取到目标字符串，用到了正则来匹配目标re.findall(pattern,string) 或者查找页面的字符串，bs4.Beautifulsoup（h 阅读全文

posted @ 2017-04-18 14:12 Braveliberty 阅读(221) 评论(0) 推荐(0) 编辑

Python爬虫2----------运用代理访问

摘要：为request添加一个代理，及将浏览器头部信息加入，随机从ip列表中拿出一个ip进行访问注意函数参数的形式，如request.proxyhandler(协议，地址) 阅读全文

posted @ 2017-04-18 06:56 Braveliberty 阅读(188) 评论(0) 推荐(0) 编辑

Python爬虫1-----------placekitten 入门

摘要：常用的urllib库有三个类：request，parse，error，request主要完成对url的请求，如proxy，opener，urlopen，parse主要完成对html的解析，error负责异常处理。打开一个url，返回 <class 'http.client.HTTPResponse 阅读全文

posted @ 2017-04-18 06:49 Braveliberty 阅读(596) 评论(0) 推荐(0) 编辑

正则表达式

摘要： 1 >>> re.findall(r'http://www|www\.[a-z0-9-]*\.[a-z]{2,3}','www.baidu.com') 2 ['www.baidu.com'] 3 >>> re.findall(r'http://www|www\.[a-z0-9-]*\.[a-z]{2,3}','www.baidu.cn') 4 ['www.baidu.cn'] 5 >>... 阅读全文

posted @ 2017-04-18 06:35 Braveliberty 阅读(143) 评论(0) 推荐(0) 编辑

Braveliberty

跟自己比，不要跟别人比

公告