摘要: 一、基础知识 (1) from scrapy.selector import Selector:导入selector对象 (2) sel=Selector(response):声明selector对象,并将响应内容加载该对象中 (3) sel.xpath(xpath语法).extract():使用X 阅读全文
posted @ 2019-03-24 11:27 凉生暖至 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 一、基础知识 1. Spiders 文件夹 用于编写爬虫规则,可以在已有的___init__.py文件中编写具体的爬虫规则但是实际开发中可能有多个爬虫规则,所以建议一个爬虫规则用一个文件表示,这样便于维护和管理 2. 代码 代码说明: (1) 属性name不能为空,是程序运行入口,如果有多个爬虫规则 阅读全文
posted @ 2019-03-24 10:33 凉生暖至 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 一、基础知识 1. Pipeline.py scrapy生成的类是setting.py中的配置类ScrapyMusicPipeline,其中数据存储在类方法process_item()中执行。 I: (1) 当spiders爬取的数据存放到items之后,回调函数的return返回items对象,这 阅读全文
posted @ 2019-03-24 10:31 凉生暖至 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 一、基础知识 1、item.py 定义存储数据对象,主要衔接spiders(文件夹)和pipelines.py 本项目自定义类属性song_name等,代表问题列表中每条问题的内容; 其中scrapy.Field()是scrapy的特有对象,其主要作用是处理并兼容不同的数据格式,开发者在定义类属性时 阅读全文
posted @ 2019-03-24 10:21 凉生暖至 阅读(162) 评论(0) 推荐(0) 编辑
摘要: Setting.py: 需要设置item pipeline和请求头即可, (1) 去掉item_pipeline的注释,其作用是指定数据入库的函数,即scrapy在执行数据存储的时候使用哪一个类对象实现存储。 (2)还要设置请求头,即DEFAULT_REQUESTS_HEADERS去掉注释 user 阅读全文
posted @ 2019-03-24 09:56 凉生暖至 阅读(181) 评论(0) 推荐(0) 编辑