2018 年 12月 26 日随笔档案 - KeithTt

2018年12月26日

摘要： Selenium把元素定位接口封装得更简单易用了，支持Xpath、CSS选择器、以及标签名、标签属性和标签文本查找。参考： https://selenium python.readthedocs.io/locating elements.html https://selenium python.r 阅读全文

posted @ 2018-12-26 07:49 KeithTt 阅读(285) 评论(0) 推荐(0) 编辑

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示

摘要： 1、数据是使用scrapy redis爬取的，存放在redis里面，爬取的是最近大热电影《海王》 2、使用了jieba中文分词解析库 3、使用了停用词stopwords，过滤掉一些无意义的词 4、使用matplotlib+wordcloud绘图展示绘图结果：参考： https://github. 阅读全文

posted @ 2018-12-26 06:41 KeithTt 阅读(306) 评论(0) 推荐(0) 编辑

requests+beautifulsoup爬取豆瓣图书

摘要：使用Xpath和BeautifulSoup来解析网页可以说真的很简便。解析结果: 阅读全文

posted @ 2018-12-26 06:18 KeithTt 阅读(380) 评论(0) 推荐(0) 编辑

三路快排

摘要：三路快排也是用来解决序列中存在大量重复元素的问题，比双路快排更高效将序列分为三个部分，小于pivot、等于pivot、大于pivot 等于pivot的部分不递归，这样在存在大量重复元素时，将大大缩小递归的数据规模阅读全文

posted @ 2018-12-26 02:41 KeithTt 阅读(814) 评论(0) 推荐(0) 编辑

双路快排

摘要：序列元素重复，是序列已经排好序的一种特殊情况，如果一个序列中的元素全部相同，也将出现最差情况。如果序列中存在大量重复元素，在普通快排中，相等的元素会被全部放到分区点的一边，这样会大大增加快排的时间复杂度，双路快排就是用来解决这个问题的。能够将序列均衡分开的分区点才是好的分区点。均匀分开意味着保持阅读全文

posted @ 2018-12-26 01:07 KeithTt 阅读(502) 评论(0) 推荐(0) 编辑

随机快排

摘要：当序列已经排好序时，将出现最差情况，时间复杂度降为O(n²) 随机快排用于解决序列近乎有序时算法复杂度退化为O(n²)的问题 from random import shuffle, randrange def quick_sort(lst, left, right): 当只有一个元素的时候退出递归阅读全文

posted @ 2018-12-26 01:04 KeithTt 阅读(406) 评论(0) 推荐(0) 编辑

快速排序

摘要：快速排序又称分区交换排序(partition exchange sort) 平均时间复杂度为O(nlogn) from random import shuffle def quick_sort(lst, left, right): 当只有一个元素的时候退出递归 if left 阅读全文

posted @ 2018-12-26 01:00 KeithTt 阅读(165) 评论(0) 推荐(0) 编辑