摘要: 创建基于CrawlSpider的爬虫文件 scrapy genspider -t crawl 爬虫名称 链接 注意follow参数 例1:follow = False spider/chouti.py 执行结果 : 没有允许链接提取器继续在提取到的链接中继续作用 例2: follow = True 阅读全文
posted @ 2018-12-19 17:47 Corey0606 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 以爬取某电影网的电影列表以及子链接中的信息为例子 spiders/parndemo.py pipelines.py settings.py items.py 阅读全文
posted @ 2018-12-19 16:44 Corey0606 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 日志等级(种类): ERROR:错误 WARNING: 警告 INFO:一般信息 DEBUG:调试信息(默认) 指定输入某一中日志信息: settings.py中添加LOG_LEVEL = "ERROR" 将日志信息存储到制定文件中,而并非显示在终端里: settings.py: LOG_FILE 阅读全文
posted @ 2018-12-19 16:36 Corey0606 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 下载中间件作用: 拦截请求,可以将请求的ip进行更换 流程: 1.下载中间件类的自制定 a) object b) 重写process_request(self, request, spider)的方法 2.配置文件中进行下载中间价的开启 middlewares.py settings.py里开启中间 阅读全文
posted @ 2018-12-19 16:27 Corey0606 阅读(127) 评论(0) 推荐(0) 编辑
摘要: import scrapy class CookiedemoSpider(scrapy.Spider): name = 'cookiedemo' # allowed_domains = ['www.douban.com'] start_urls = ['https://www.douban.com/accounts/login/'] def parse(se... 阅读全文
posted @ 2018-12-19 16:17 Corey0606 阅读(118) 评论(0) 推荐(0) 编辑
摘要: scrapy发起post请求的两种方式 一定要对start_requests方法进行重写 1.Request方法中给method属性复制成post 2.FormRequest()进行post请求的发送 方法1(不建议使用): 方法2(推荐用scrapy.FormRequest): 阅读全文
posted @ 2018-12-19 16:13 Corey0606 阅读(513) 评论(0) 推荐(0) 编辑