摘要: selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的 阅读全文
posted @ 2019-03-28 15:47 懒惰的小松鼠 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 有时候在爬取数据的时候我们需要手动向上滑一下,网页才加载一定量的数据,但是网页的url并没有发生变化,这时我们就要考虑使用ajax进行数据爬取了。。。 阅读全文
posted @ 2019-03-28 15:38 懒惰的小松鼠 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 下面仅仅展示Redis的set()集合存储,并不完整,后期会对Redis进行全面的介绍。。。。 此时数据已经存储到Redis当中 阅读全文
posted @ 2019-03-28 15:34 懒惰的小松鼠 阅读(380) 评论(0) 推荐(0) 编辑
摘要: MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较 阅读全文
posted @ 2019-03-17 17:46 懒惰的小松鼠 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 接着上一节的内容 5、MySQL数据更新 结果是将id=3的name进行更新操作,结果如下: 6、MySQL数据去重及更新 结果是判断数据是否有重复的,如果有重复的将不再存储,若没有重复的就更新数据进行插入操作, 最后两行数据与红色框起来的数据有相同的,故之存储了最后两行数据,结果如下: 7、MyS 阅读全文
posted @ 2019-03-17 11:38 懒惰的小松鼠 阅读(583) 评论(0) 推荐(0) 编辑
摘要: 用解析器解析出数据之后,接下来就是存储数据了,保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如 TXT、JSON、csv 另外,还可以保存到数据库中,如关系型数据库MySQL ,非关系型数据库 MongoDB、Redis等 1、TXT、JSON、csv 数据存储: 2、MySQL数据存储 阅读全文
posted @ 2019-03-16 22:04 懒惰的小松鼠 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 第四个模块 robotparser: 主要是用来识别网站的 robots.txt 文件,然后判断哪些网站可以爬,哪些网站不可以爬的,其实用的比较少。 阅读全文
posted @ 2019-03-16 12:25 懒惰的小松鼠 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 第三个 模块parse : 是一个工具模块,提供了许多 URL 处理方法,比如拆分、解析、合并等等的方法。 阅读全文
posted @ 2019-03-16 12:23 懒惰的小松鼠 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 第二个模块 error : 即异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作保证程序不会意外终止。 阅读全文
posted @ 2019-03-16 12:22 懒惰的小松鼠 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 二、urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None) 简介:urllib.request 模块提供了最基本的构造 HTTP 请求的方法,利 阅读全文
posted @ 2019-03-16 12:18 懒惰的小松鼠 阅读(123) 评论(0) 推荐(0) 编辑