爬虫的一般步骤

希望下次写代码的时候可以严格按照这个步骤进行调试,写可维护的代码

1. 创建一个项目

    scrapy startproject demo

1. 根据需要设计字段

items.py

  ***************

2. 数据提取 spiders.py

根据网站的规则: 设置相应的策略

  1)针对没有ban且没有动态数据的网站

  无需设置相应得策略:  设置UserAgentMiddleware即可

  2) 针对没有ban有动态数据的网站

  在1的基础上,设置代理IP池(变IP采集),动态数据获取可以根据浏览器响应的方式发请求

  3) 针对有ban和有动态数据的网站

  在1的基础上,设置代理IP池,设置Cookies池,使用selenium的plantomjs插件

3. 在简单(页面解析)的问题上,尽量不要花太多的时间!!!

4. 能使用url请求的尽量不要是用selenium插件  

5. 函数命名规则(给网站等级: 观察有几级URL)

  self.parse

  self.parse_cat

  self.parse_two

  self.parse_three

posted @ 2017-11-28 16:41  人微言轻1  阅读(382)  评论(0编辑  收藏  举报