摘要: Selenium把元素定位接口封装得更简单易用了,支持Xpath、CSS选择器、以及标签名、标签属性和标签文本查找。 参考: https://selenium python.readthedocs.io/locating elements.html https://selenium python.r 阅读全文
posted @ 2018-12-26 07:49 KeithTt 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 1、数据是使用scrapy redis爬取的,存放在redis里面,爬取的是最近大热电影《海王》 2、使用了jieba中文分词解析库 3、使用了停用词stopwords,过滤掉一些无意义的词 4、使用matplotlib+wordcloud绘图展示 绘图结果: 参考: https://github. 阅读全文
posted @ 2018-12-26 06:41 KeithTt 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 使用Xpath和BeautifulSoup来解析网页可以说真的很简便。 解析结果: 阅读全文
posted @ 2018-12-26 06:18 KeithTt 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 三路快排 也是用来解决序列中存在大量重复元素的问题,比双路快排更高效 将序列分为三个部分,小于pivot、等于pivot、大于pivot 等于pivot的部分不递归,这样在存在大量重复元素时,将大大缩小递归的数据规模 阅读全文
posted @ 2018-12-26 02:41 KeithTt 阅读(813) 评论(0) 推荐(0) 编辑
摘要: 序列元素重复,是序列已经排好序的一种特殊情况,如果一个序列中的元素全部相同,也将出现最差情况。 如果序列中存在大量重复元素,在普通快排中,相等的元素会被全部放到分区点的一边,这样会大大增加快排的时间复杂度,双路快排就是用来解决这个问题的。 能够将序列均衡分开的分区点才是好的分区点。均匀分开意味着保持 阅读全文
posted @ 2018-12-26 01:07 KeithTt 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 当序列已经排好序时,将出现最差情况,时间复杂度降为O(n²) 随机快排用于解决序列近乎有序时算法复杂度退化为O(n²)的问题 from random import shuffle, randrange def quick_sort(lst, left, right): 当只有一个元素的时候退出递归 阅读全文
posted @ 2018-12-26 01:04 KeithTt 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 快速排序 又称分区交换排序(partition exchange sort) 平均时间复杂度为O(nlogn) from random import shuffle def quick_sort(lst, left, right): 当只有一个元素的时候退出递归 if left 阅读全文
posted @ 2018-12-26 01:00 KeithTt 阅读(165) 评论(0) 推荐(0) 编辑