摘要:
自己在学习崔庆才老师爬虫课程中文本存储一节中,看到崔老师以爬取知乎搜索为例进行演示,但是其使用的是pyquery解析库来解析网页,自己在网上看到有文章说xpath是最好的解析库,也想使用xpath来完成网页的解析,但是其中遇到了问题。 崔老师的源代码 使用崔老师的代码能够完整爬取网页上的内容 自己遇 阅读全文
摘要:
当我们用解析器解析出数据之后,接下来的一步就是对数据进行存储了,保存的形式可以多种多样,最简单的形式可以直接保存为文本文件,如 TXT、Json、CSV 等等,另外还可以保存到数据库中,如关系型数据库 MySQL,非关系型数据库 MongoDB、Redis 等等。 优点:操作简单,且可以兼容几乎所有 阅读全文