Fork me on Gitee
摘要: 使用selenium进行翻页获取职位链接,再对链接进行解析 会爬取到部分空列表,感觉是网速太慢了,加了time.sleep()还是会有空列表 运行结果 阅读全文
posted @ 2018-08-13 10:38 MARK+ 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 拉勾网反爬虫做的比较严,请求头多添加几个参数才能不被网站识别 找到真正的请求网址,返回的是一个json串,解析这个json串即可,而且注意是post传值 通过改变data中pn的值来控制翻页 job_name读取的结果是一个列表 ['JAVA高级工程师、爬虫工程师'] ,而我只想得到里面的字符串,在 阅读全文
posted @ 2018-08-12 21:36 MARK+ 阅读(966) 评论(0) 推荐(0) 编辑
摘要: 运行结果 阅读全文
posted @ 2018-08-11 17:51 MARK+ 阅读(670) 评论(0) 推荐(0) 编辑
摘要: 下载是相当快啊 阅读全文
posted @ 2018-08-11 14:15 MARK+ 阅读(324) 评论(0) 推荐(0) 编辑
摘要: 为下一个多线程练练手 不多说了,沙海开始了。 阅读全文
posted @ 2018-08-10 20:09 MARK+ 阅读(704) 评论(0) 推荐(0) 编辑
摘要: 日期: [1-9]\d{3}-(0[1-9]|1[0-2])-(0[1-9]|[1-2][0-9]|3[0-1]) 时间: (20|21|22|23|[0-1]\d):[0-5]\d:[0-5]\d 时间戳 1970纪元后经过的浮点秒数 tm_wday; /* 星期 – 取值区间为[0,6],其中0 阅读全文
posted @ 2018-08-08 08:34 MARK+ 阅读(5781) 评论(0) 推荐(0) 编辑
摘要: 这个链接的正则表达式感觉写的没问题啊,可是匹配不到东西,奇了怪了,先放着吧,xpath可以匹配到 运行结果 阅读全文
posted @ 2018-08-06 17:11 MARK+ 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 程序中请求到的和网页中内容不一样,但也是古诗,不是道是不是因为请求头的原因,使得网站推荐的古诗有差异 运行结果 阅读全文
posted @ 2018-08-06 11:46 MARK+ 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 。。港澳台的格式不太一样,暂时不想管他们了 。。运行结果的话,我爬取得是当日白天的天气,现在晚上了,数据都没有了(一开始还以为是代码改错了,还一直撤销) 阅读全文
posted @ 2018-08-05 20:01 MARK+ 阅读(1210) 评论(0) 推荐(0) 编辑
摘要: 和昨天一样的工作量,时间只用了一半,但还是效率有点低了,因为要把两个网页结合起来,所以在列表操作上用了好多时间 目前sublime还输入不了中文,所以把输出注释上,方便看清格式 运行结果: 红色圈出来的是一个字典,包含第一个网页的信息(职位名称,url,位置)和详情页面的职责(工作职责,工作要求), 阅读全文
posted @ 2018-08-04 14:22 MARK+ 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 写了一天才写了不到100行。不过总归是按自己的思路完成了 运行结果:(选中的是一部电影, 一页中有25部电影,网站里一共有176页) 感受到了代码的魅力了吗 阅读全文
posted @ 2018-08-03 20:21 MARK+ 阅读(839) 评论(0) 推荐(0) 编辑
摘要: 单纯地练习一下xpath 阅读全文
posted @ 2018-08-02 18:18 MARK+ 阅读(500) 评论(0) 推荐(0) 编辑
摘要: 1.response.content: 这个是直接从网络上面抓取的数据,没有经过任何解码,所以是一个bytes类型,其实在硬盘上和在网络上传输的字符串都是bytes类型 2.response.text: 这个是str的数据类型,是requests库将response.content进行解码的字符串, 阅读全文
posted @ 2018-08-01 15:24 MARK+ 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 希尔排序是希尔(Donald Shell)于1959年提出的一种排序算法。希尔排序也是一种插入排序,它是简单插入排序经过改进之后的一个更高效的版本,也称为缩小增量排序,同时该算法是冲破O(n2)的第一批算法之一 图片来源:https://www.cnblogs.com/chengxiao/p/610 阅读全文
posted @ 2018-07-28 22:59 MARK+ 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 从第一个元素开始,该元素可以认为已经被排序 取出下一个元素,在已经排序的元素序列中从后向前扫描 如果该元素(已排序)大于新元素,将该元素移到下一位置 重复步骤3,直到找到已排序的元素小于或者等于新元素的位置 将新元素插入到该位置后 重复步骤2~5 阅读全文
posted @ 2018-07-27 21:40 MARK+ 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 从图中我们可以看到: left指针,right指针,base参照数。 其实思想是蛮简单的,就是通过第一遍的遍历(让left和right指针重合)来找到数组的切割点。 第一步:首先我们从数组的left位置取出该数(20)作为基准(base)参照物。 第二步:从数组的right位置向前找,一直找到比(b 阅读全文
posted @ 2018-07-25 21:11 MARK+ 阅读(378) 评论(0) 推荐(0) 编辑
摘要: 先找了一个简单的图形验证码进行测试,比如知网,从网页里把验证码下载到本地 进行简单的灰度处理和二值化处理,能够提高不少识别正确率 验证码: 代码: 结果: 如果没有灰度处理和二值化处理这个9就总识别错了 阅读全文
posted @ 2018-07-23 20:54 MARK+ 阅读(1127) 评论(0) 推荐(0) 编辑
摘要: 记录一趟中最大(小)元素,最后再进行交换 选择排序是不稳定的排序算法,不稳定发生在最小元素与A[i]交换的时刻。 比如序列:{ 5, 8, 5, 2, 9 },一次选择的最小元素是2,然后把2和第一个5进行交换,从而改变了两个元素5的相对次序 阅读全文
posted @ 2018-07-23 20:11 MARK+ 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 鸡尾酒排序,也叫定向冒泡排序,是冒泡排序的一种改进。此算法与冒泡排序的不同处在于从低到高然后从高到低,而冒泡排序则仅从低到高去比较序列里的每个元素。他可以得到比冒泡排序稍微好一点的效能。 python代码: 阅读全文
posted @ 2018-07-21 20:43 MARK+ 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 通常所说的排序算法往往指的是内部排序算法,即数据记录在内存中进行排序。 排序算法大体可分为两种: 一种是比较排序,时间复杂度O(nlogn)~O(n^2),主要有:冒泡排序,选择排序,插入排序,归并排序,堆排序,快速排序 另一种是非比较排序,时间复杂度可以达到O(n),主要有:基数排序,基数排序,桶 阅读全文
posted @ 2018-07-21 20:07 MARK+ 阅读(168) 评论(0) 推荐(0) 编辑