2019 年 3月 24 日随笔档案 - 凉生暖至

2019年3月24日

摘要：一、基础知识（1） from scrapy.selector import Selector:导入selector对象（2） sel=Selector(response):声明selector对象，并将响应内容加载该对象中（3） sel.xpath(xpath语法).extract():使用X 阅读全文

posted @ 2019-03-24 11:27 凉生暖至阅读(156) 评论(0) 推荐(0) 编辑

5.spiders(文件夹)

摘要：一、基础知识 1. Spiders 文件夹用于编写爬虫规则，可以在已有的___init__.py文件中编写具体的爬虫规则但是实际开发中可能有多个爬虫规则，所以建议一个爬虫规则用一个文件表示，这样便于维护和管理 2. 代码代码说明：（1）属性name不能为空，是程序运行入口，如果有多个爬虫规则阅读全文

posted @ 2019-03-24 10:33 凉生暖至阅读(274) 评论(0) 推荐(0) 编辑

4. pipelines.py

摘要：一、基础知识 1. Pipeline.py scrapy生成的类是setting.py中的配置类ScrapyMusicPipeline，其中数据存储在类方法process_item()中执行。 I: (1) 当spiders爬取的数据存放到items之后，回调函数的return返回items对象，这阅读全文

posted @ 2019-03-24 10:31 凉生暖至阅读(294) 评论(0) 推荐(0) 编辑

3.item.py

摘要：一、基础知识 1、item.py 定义存储数据对象，主要衔接spiders（文件夹）和pipelines.py 本项目自定义类属性song_name等，代表问题列表中每条问题的内容; 其中scrapy.Field()是scrapy的特有对象，其主要作用是处理并兼容不同的数据格式，开发者在定义类属性时阅读全文

posted @ 2019-03-24 10:21 凉生暖至阅读(162) 评论(0) 推荐(0) 编辑

2.setting.py

摘要： Setting.py: 需要设置item pipeline和请求头即可， (1) 去掉item_pipeline的注释，其作用是指定数据入库的函数，即scrapy在执行数据存储的时候使用哪一个类对象实现存储。 (2)还要设置请求头，即DEFAULT_REQUESTS_HEADERS去掉注释 user 阅读全文

posted @ 2019-03-24 09:56 凉生暖至阅读(181) 评论(0) 推荐(0) 编辑

凉生暖至

公告