Scrapy框架 - 随笔分类 - 凉生暖至

7.xpath()

摘要：一、基础知识 1、在大多数 Web 应用程序中，XML 用于传输数据，而 HTML 用于格式化并显示数据。对 XML 最好的描述是： XML 是独立于软件和硬件的信息传输工具。常用于简化数据的存储和共享 2、相对路径与绝对路径：如果"/"处在XPath表达式开头则表示文档根元素，（表达式中间作阅读全文

posted @ 2019-04-01 21:22 凉生暖至阅读(118) 评论(0) 推荐(0)

6.Selectors

摘要：一、基础知识（1） from scrapy.selector import Selector:导入selector对象（2） sel=Selector(response):声明selector对象，并将响应内容加载该对象中（3） sel.xpath(xpath语法).extract():使用X 阅读全文

posted @ 2019-03-24 11:27 凉生暖至阅读(169) 评论(0) 推荐(0)

5.spiders(文件夹)

摘要：一、基础知识 1. Spiders 文件夹用于编写爬虫规则，可以在已有的___init__.py文件中编写具体的爬虫规则但是实际开发中可能有多个爬虫规则，所以建议一个爬虫规则用一个文件表示，这样便于维护和管理 2. 代码代码说明：（1）属性name不能为空，是程序运行入口，如果有多个爬虫规则阅读全文

posted @ 2019-03-24 10:33 凉生暖至阅读(300) 评论(0) 推荐(0)

4. pipelines.py

摘要：一、基础知识 1. Pipeline.py scrapy生成的类是setting.py中的配置类ScrapyMusicPipeline，其中数据存储在类方法process_item()中执行。 I: (1) 当spiders爬取的数据存放到items之后，回调函数的return返回items对象，这阅读全文

posted @ 2019-03-24 10:31 凉生暖至阅读(317) 评论(0) 推荐(0)

3.item.py

摘要：一、基础知识 1、item.py 定义存储数据对象，主要衔接spiders（文件夹）和pipelines.py 本项目自定义类属性song_name等，代表问题列表中每条问题的内容; 其中scrapy.Field()是scrapy的特有对象，其主要作用是处理并兼容不同的数据格式，开发者在定义类属性时阅读全文

posted @ 2019-03-24 10:21 凉生暖至阅读(187) 评论(0) 推荐(0)

2.setting.py

摘要：Setting.py: 需要设置item pipeline和请求头即可， (1) 去掉item_pipeline的注释，其作用是指定数据入库的函数，即scrapy在执行数据存储的时候使用哪一个类对象实现存储。 (2)还要设置请求头，即DEFAULT_REQUESTS_HEADERS去掉注释 user 阅读全文

posted @ 2019-03-24 09:56 凉生暖至阅读(202) 评论(0) 推荐(0)

1.scrapy基础知识

摘要：一、基础知识 1.网络爬虫（1）爬虫的分类通用网络爬虫：又称全网爬虫，常见的有百度和Google等搜索引擎，爬行对象从一些初始URL扩充到整个网络，主要为门户站点搜索引擎和大型网站服务采集数据，这在网络上通常称为搜索引擎聚焦网络爬虫、增量式网络爬虫、深层网络爬虫：这类爬虫比较有目的，也就是网络阅读全文

posted @ 2019-03-23 21:55 凉生暖至阅读(192) 评论(0) 推荐(0)

凉生暖至

随笔分类 - Scrapy框架

公告