06 2024 档案
摘要:Scrapy核心组件与运行机制 引言 这一章开始讲解Scrapy核心组件的功能与作用,通过流程图了解整体的运行机制,然后了解它的安装与项目创建,为后续实战做好准备。 Scrapy定义 Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它使用Python语言编写,并基于异步网络框架T
阅读全文
摘要:MongoDB安装与快速入门 一、MongoDB 概述 MongoDB 是一个面向文档的数据库系统,使用 BSON(Binary JSON)格式存储数据,提供了高性能、高可用性和易扩展性。它专为 Web 应用和大数据场景设计,通过简单的数据模型、强大的查询功能和灵活的扩展性,成为现代应用开发的热门选
阅读全文
摘要:数据来源:tushare 署名:406940 tushare是一个股票行情数据接口,通过它能获取到大量的股票数据,数据一多,必然影响爬取速度,本章我要展示的是在同步、asyncio和线程池三种情况下去爬tushare六支差不多一年的历史分笔数据 同步 同步是在一个多线程下执行,程序按照代码执行顺序一
阅读全文
摘要:背景 咱们做爬虫的或多或少都会遇到附件下载,一般情况站点提供的附件链接会直接声明文件的类型,但是有些提供的只是一个api,然后触发下载时再返回附件文本,这个时候我们是没法直接知道文件类型的,而我们使用requests下载并存储附件时是必须要定义好它的文件类型的,那有什么解决方案呢? 解决方案 mim
阅读全文