爬虫大概了解下爬虫的

# 爬虫网络请求方式：urllib(模块), requests(库), scrapy, pyspider(框架)
# 爬虫数据提取方式：正则表达式, bs4, lxml, xpath, css
哪种方法都可以用,可以根据实际情况选用方式

爬取静态页面
　　比较好爬取,一般的措施是cookie中登录信息,或者cookie中有页面的跳转信息
　　ip的限制
针对措施
　　GitHub中搜索proxy_pool-master      CookiesPool-master
　　第一个是代理池   会从代理网站上爬取可用的ip,使用方法也说明了
　　第二个是cookies池 
　　根据情况使用相应的策略
验证码方案
　　截图验证码,将图片传到云打码上,会返回答案    尽量不要出现验证码


爬取动态网页
　　json接口数据   直接访问接口
　　selenium 自动化测试框架

posted @ 2018-06-09 11:17 Eunuch_Li 阅读(138) 评论(0) 收藏举报

刷新页面返回顶部