随笔分类 - Python3网络爬虫 / 04.数据的存储
摘要:Scrapy-Redis 是 Scrapy 的一个扩展,主要用于分布式爬虫开发。它通过 Redis 实现多个爬虫实例之间的任务队列共享和数据去重,使得爬虫可以在多个机器上协同工作,提高爬取效率和数据处理能力。 Scrapy-Redis 的主要特点 分布式调度:任务队列存储在 Redis 中,多个爬虫
阅读全文
摘要:MongoDB 的介绍 MongoDB 是一个开源的非关系型数据库系统,采用 C++ 编写,旨在处理大量数据存储和高吞吐量的应用程序。MongoDB 使用 JSON 风格的文档存储数据,具有高度的灵活性和性能。 主要特点: 非关系型数据库:不采用传统的关系型数据库表格模型,而是使用文档存储模型。 高
阅读全文
摘要:非关系型数据库存储 NoSQL,全称 Not Only SQL,意为不仅仅是 SQL,泛指非关系型数据库。NoSQL 是基于键值对的,而且不需要经过 SQL 层的解析,数据之间没有耦合性,性能非常高。 非关系型数据库又可细分如下。 键值存储数据库:代表有 Redis、Voldemort 和 Orac
阅读全文
摘要:JSON 文件存储 JSON,全称为 JavaScript Object Notation, 也就是 JavaScript 对象标记,通过对象和数组的组合来表示数据,构造简洁但是结构化程度非常高,是一种轻量级的数据交换格式。 对象和数组 在 JavaScript 语言中,一切皆为对象。因此任何支持的
阅读全文
摘要:MySQL存储 关系型数据库是基于关系模型的数据库,而关系模型是通过二维表来保存的,所以它的存储方式就是行列组成的表,每一列是一个字段,每一行是一条记录。表可以看作某个实体的集合,实体之间存在联系需要表与表之间的关联关系来体现,如主键外键的关联关系。多个表组成一个数据库,也就是关系型数据库。 关系型
阅读全文
摘要:CSV 文件存储 CSV,全称为 Comma-Separated Values,中文可以叫作逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分隔。每条记录由若干字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符
阅读全文
摘要:用解析器解析出数据之后,接下来就是存储数据了。保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如 TXT、JSON、CSV 等。另外,还可以保存到数据库中,如关系型数据库 MySQL,非关系型数据库 MongoDB、Redis 等。除了这两种也可以吧数据存储到搜索引擎(如Elasticse
阅读全文
摘要:通过windows服务管理器启动MySQL服务 1 开始-->运行-->输入services.msc命令-->启动MySQL服务 通过DOS命令启动MySQL服务 1 net start mysql 停止MySQL服务 通过windows服务管理器启动MySQL服务 1 开始-->运行-->输入se
阅读全文