爬虫 大概了解下爬虫的

# 爬虫网络请求方式:urllib(模块), requests(库), scrapy, pyspider(框架)
# 爬虫数据提取方式:正则表达式, bs4, lxml, xpath, css
哪种方法都可以用,可以根据实际情况选用方式

爬取静态页面
  比较好爬取,一般的措施是cookie中登录信息,或者cookie中有页面的跳转信息
  ip的限制
针对措施
  GitHub中搜索proxy_pool-master CookiesPool-master
  第一个是代理池 会从代理网站上爬取可用的ip,使用方法也说明了
  第二个是cookies池
  根据情况使用相应的策略
验证码方案
  截图验证码,将图片传到云打码上,会返回答案 尽量不要出现验证码


爬取动态网页
  json接口数据 直接访问接口
  selenium 自动化测试框架

posted @ 2018-06-09 11:17  Eunuch_Li  阅读(124)  评论(0编辑  收藏  举报