爬虫的一般步骤

希望下次写代码的时候可以严格按照这个步骤进行调试，写可维护的代码

1. 创建一个项目

scrapy startproject demo

1. 根据需要设计字段

items.py

　　***************

2. 数据提取 spiders.py

根据网站的规则：设置相应的策略

　　1）针对没有ban且没有动态数据的网站

　　无需设置相应得策略：设置UserAgentMiddleware即可

　　2）针对没有ban有动态数据的网站

　　在1的基础上，设置代理IP池（变IP采集），动态数据获取可以根据浏览器响应的方式发请求

　　3）针对有ban和有动态数据的网站

　　在1的基础上，设置代理IP池，设置Cookies池，使用selenium的plantomjs插件

3. 在简单（页面解析）的问题上，尽量不要花太多的时间！！！

4. 能使用url请求的尽量不要是用selenium插件　　

5. 函数命名规则（给网站等级：观察有几级URL）

　　self.parse

　　self.parse_cat

　　self.parse_two

　　self.parse_three

posted @ 2017-11-28 16:41 人微言轻1 阅读(382) 评论(0) 编辑收藏举报

刷新页面返回顶部

人贱言轻