2024 年 5月 29 日随笔档案 - JJJhr

2024年5月29日

摘要：用解析器解析出数据之后，接下来就是存储数据了。保存的形式可以多种多样，最简单的形式是直接保存为文本文件，如 TXT、JSON、CSV 等。另外，还可以保存到数据库中，如关系型数据库 MySQL，非关系型数据库 MongoDB、Redis 等。除了这两种也可以吧数据存储到搜索引擎（如Elasticse 阅读全文

posted @ 2024-05-29 01:58 JJJhr 阅读(5) 评论(0) 推荐(0) 编辑

aiohttp异步爬取实战

摘要：案例介绍爬取一个数据量较大的软件，链接为https://spa5.scrape.center，页面如下图所示：这是一个图书网站，整个网站包含数千本图书信息，网站数据是 JavaScript 渲染而得的，数据可以通过 Ajax 接口获取，并且接口没有设置反爬措施和加密参数。且网站数据量多，更适合异阅读全文

posted @ 2024-05-29 01:57 JJJhr 阅读(4) 评论(0) 推荐(0) 编辑

协程的基本原理

摘要：爬虫是 IO 密集型任务，例如使用 requests 库来爬取某个站点，发出一个请求之后，程序必须要等待网站返回响应之后才能接着运行，而在等待响应的过程中，整个爬虫程序是一直在等待的，实际上没有做任何的事情。对于这种情况我们有没有优化方案呢？协程的基本原理要实现异步机制的爬虫，自然和协程脱不了关阅读全文

posted @ 2024-05-29 01:56 JJJhr 阅读(1) 评论(0) 推荐(0) 编辑

aiohttp的使用

摘要：在上一节中介绍了异步爬虫的基本原理和 asyncio 的基本用法，并且在最后简单提及了使用 aiohttp 来实现网页爬取的过程。本节介绍一下 aiohttp 的常见用法。基本介绍前面介绍的 asyncio 模块内部实现了对 TCP、UDP、SSL 协议的异步操作，但是对于 HTTP 请求来说，阅读全文

posted @ 2024-05-29 01:56 JJJhr 阅读(18) 评论(0) 推荐(0) 编辑

Ajax分析与爬取实战

摘要： Ajax 分析与爬取实战准备工作安装好 Python3 了解 Python HTTP 请求库 requests 的基本用法了解 Ajax 基础知识和分析 Ajax 的基本方法爬取目标以一个示例网站来实验一下 Ajax 的爬取，链接为：https://spa1.scrape.center/，阅读全文

posted @ 2024-05-29 01:55 JJJhr 阅读(5) 评论(0) 推荐(0) 编辑

Ajax分析方法

摘要： Ajax 分析方法以前面的微博为例，拖动刷新的内容由 Ajax 加载，而且页面的 URL 没有变化，那么应该到哪里去查看这些 Ajax 请求呢？查看请求需要借助浏览器的开发者工具，下面以 Chrome 浏览器为例。用 Chrome 浏览器打开微博的链接 https://m.weibo.cn/ 阅读全文

posted @ 2024-05-29 01:54 JJJhr 阅读(3) 评论(0) 推荐(0) 编辑

JJJhr'blog

公告