摘要: 1、Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们的指令,让浏览器自动加载页 阅读全文
posted @ 2020-05-10 21:41 Norni 阅读(228) 评论(0) 推荐(0) 编辑
摘要: (1)和lxml一样,Beautifu Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。 (2)lxml只会局部遍历,而Beautiful Soup是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lx 阅读全文
posted @ 2020-05-10 13:49 Norni 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 1、Queue(队列对象) Queue是python中的标准库,可以直接impot Queue引用。 队列是线程间最常用的交换数据的形式。 1.1 初始化 class Queue.Queue(maxsize) #FIFO 先进先出 1.2 包中的常用方法 Queue.qsize() 返回队列的大小 阅读全文
posted @ 2020-05-10 00:12 Norni 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 声明:无意滋生事端,仅学习分享,如有侵权,将立即删除。 说明:糗事百科段子的爬取,采用了队列和多线程的方式,其中关键点是Queue.task_done()、Queue.join(),保证了线程的有序进行。 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< 阅读全文
posted @ 2020-05-10 00:11 Norni 阅读(464) 评论(0) 推荐(0) 编辑