2019 年 5月 23 日随笔档案 - 舒畅123

2019年5月23日

摘要：自己在学习崔庆才老师爬虫课程中文本存储一节中，看到崔老师以爬取知乎搜索为例进行演示，但是其使用的是pyquery解析库来解析网页，自己在网上看到有文章说xpath是最好的解析库，也想使用xpath来完成网页的解析，但是其中遇到了问题。崔老师的源代码使用崔老师的代码能够完整爬取网页上的内容自己遇阅读全文

posted @ 2019-05-23 23:30 舒畅123 阅读(725) 评论(0) 推荐(0) 编辑

数据的存储--TXT文本存储

摘要：当我们用解析器解析出数据之后，接下来的一步就是对数据进行存储了，保存的形式可以多种多样，最简单的形式可以直接保存为文本文件，如 TXT、Json、CSV 等等，另外还可以保存到数据库中，如关系型数据库 MySQL，非关系型数据库 MongoDB、Redis 等等。优点：操作简单，且可以兼容几乎所有阅读全文

posted @ 2019-05-23 00:20 舒畅123 阅读(875) 评论(0) 推荐(0) 编辑

舒畅123

公告