摘要: 用解析器解析出数据之后,接下来就是存储数据了,保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如 TXT、JSON、csv 另外,还可以保存到数据库中,如关系型数据库MySQL ,非关系型数据库 MongoDB、Redis等 1、TXT、JSON、csv 数据存储: 2、MySQL数据存储 阅读全文
posted @ 2019-03-16 22:04 懒惰的小松鼠 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 第四个模块 robotparser: 主要是用来识别网站的 robots.txt 文件,然后判断哪些网站可以爬,哪些网站不可以爬的,其实用的比较少。 阅读全文
posted @ 2019-03-16 12:25 懒惰的小松鼠 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 第三个 模块parse : 是一个工具模块,提供了许多 URL 处理方法,比如拆分、解析、合并等等的方法。 阅读全文
posted @ 2019-03-16 12:23 懒惰的小松鼠 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 第二个模块 error : 即异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作保证程序不会意外终止。 阅读全文
posted @ 2019-03-16 12:22 懒惰的小松鼠 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 二、urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None) 简介:urllib.request 模块提供了最基本的构造 HTTP 请求的方法,利 阅读全文
posted @ 2019-03-16 12:18 懒惰的小松鼠 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 一、urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) 简介:urllib.request.urlopen()函数用于实现对目标ur 阅读全文
posted @ 2019-03-16 12:16 懒惰的小松鼠 阅读(191) 评论(0) 推荐(0) 编辑
摘要: PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。 阅读全文
posted @ 2019-03-16 12:15 懒惰的小松鼠 阅读(118) 评论(0) 推荐(0) 编辑