爬虫的一般步骤
希望下次写代码的时候可以严格按照这个步骤进行调试,写可维护的代码
1. 创建一个项目
scrapy startproject demo
1. 根据需要设计字段
items.py
***************
2. 数据提取 spiders.py
根据网站的规则: 设置相应的策略
1)针对没有ban且没有动态数据的网站
无需设置相应得策略: 设置UserAgentMiddleware即可
2) 针对没有ban有动态数据的网站
在1的基础上,设置代理IP池(变IP采集),动态数据获取可以根据浏览器响应的方式发请求
3) 针对有ban和有动态数据的网站
在1的基础上,设置代理IP池,设置Cookies池,使用selenium的plantomjs插件
3. 在简单(页面解析)的问题上,尽量不要花太多的时间!!!
4. 能使用url请求的尽量不要是用selenium插件
5. 函数命名规则(给网站等级: 观察有几级URL)
self.parse
self.parse_cat
self.parse_two
self.parse_three