MARK+ - 博客园

2018年8月13日

摘要：使用selenium进行翻页获取职位链接，再对链接进行解析会爬取到部分空列表，感觉是网速太慢了，加了time.sleep()还是会有空列表运行结果阅读全文

posted @ 2018-08-13 10:38 MARK+ 阅读(220) 评论(0) 推荐(0) 编辑

2018年8月12日

摘要：拉勾网反爬虫做的比较严，请求头多添加几个参数才能不被网站识别找到真正的请求网址，返回的是一个json串，解析这个json串即可，而且注意是post传值通过改变data中pn的值来控制翻页 job_name读取的结果是一个列表 ['JAVA高级工程师、爬虫工程师'] ，而我只想得到里面的字符串，在阅读全文

posted @ 2018-08-12 21:36 MARK+ 阅读(966) 评论(0) 推荐(0) 编辑

2018年8月11日

爬虫_古诗文网(队列，多线程，锁，正则，xpath)

摘要：运行结果阅读全文

posted @ 2018-08-11 17:51 MARK+ 阅读(670) 评论(0) 推荐(0) 编辑

爬虫_斗图啦(队列，多线程)

摘要：下载是相当快啊阅读全文

posted @ 2018-08-11 14:15 MARK+ 阅读(324) 评论(0) 推荐(0) 编辑

2018年8月10日

爬虫_斗图啦_表情包下载

摘要：为下一个多线程练练手不多说了，沙海开始了。阅读全文

posted @ 2018-08-10 20:09 MARK+ 阅读(704) 评论(0) 推荐(0) 编辑

2018年8月8日

正则表达式，时间戳和日期互相转换

摘要：日期： [1-9]\d{3}-(0[1-9]|1[0-2])-(0[1-9]|[1-2][0-9]|3[0-1]) 时间： (20|21|22|23|[0-1]\d):[0-5]\d:[0-5]\d 时间戳 1970纪元后经过的浮点秒数 tm_wday; /* 星期 – 取值区间为[0,6]，其中0 阅读全文

posted @ 2018-08-08 08:34 MARK+ 阅读(5781) 评论(0) 推荐(0) 编辑

2018年8月6日

爬虫_糗事百科（正则表达式）

摘要：这个链接的正则表达式感觉写的没问题啊，可是匹配不到东西，奇了怪了，先放着吧，xpath可以匹配到运行结果阅读全文

posted @ 2018-08-06 17:11 MARK+ 阅读(334) 评论(0) 推荐(0) 编辑

爬虫_古诗文网（正则表达式）

摘要：程序中请求到的和网页中内容不一样，但也是古诗，不是道是不是因为请求头的原因，使得网站推荐的古诗有差异运行结果阅读全文

posted @ 2018-08-06 11:46 MARK+ 阅读(381) 评论(0) 推荐(0) 编辑

2018年8月5日

爬虫_中国天气网_文字天气预报（xpath）

摘要：。。港澳台的格式不太一样，暂时不想管他们了。。运行结果的话，我爬取得是当日白天的天气，现在晚上了，数据都没有了（一开始还以为是代码改错了，还一直撤销）阅读全文

posted @ 2018-08-05 20:01 MARK+ 阅读(1210) 评论(0) 推荐(0) 编辑

2018年8月4日

爬虫_腾讯招聘（xpath）

摘要：和昨天一样的工作量，时间只用了一半，但还是效率有点低了，因为要把两个网页结合起来，所以在列表操作上用了好多时间目前sublime还输入不了中文，所以把输出注释上，方便看清格式运行结果：红色圈出来的是一个字典，包含第一个网页的信息（职位名称，url，位置）和详情页面的职责（工作职责，工作要求），阅读全文

posted @ 2018-08-04 14:22 MARK+ 阅读(506) 评论(0) 推荐(0) 编辑

2018年8月3日

爬虫_电影天堂热映电影（xpath）

摘要：写了一天才写了不到100行。不过总归是按自己的思路完成了运行结果：（选中的是一部电影，一页中有25部电影，网站里一共有176页）感受到了代码的魅力了吗阅读全文

posted @ 2018-08-03 20:21 MARK+ 阅读(839) 评论(0) 推荐(0) 编辑

2018年8月2日

爬虫_豆瓣全部正在热映电影（xpath）

摘要：单纯地练习一下xpath 阅读全文

posted @ 2018-08-02 18:18 MARK+ 阅读(500) 评论(0) 推荐(0) 编辑

2018年8月1日

requests中 .text 和 .content区别

摘要： 1.response.content: 这个是直接从网络上面抓取的数据，没有经过任何解码，所以是一个bytes类型，其实在硬盘上和在网络上传输的字符串都是bytes类型 2.response.text: 这个是str的数据类型，是requests库将response.content进行解码的字符串，阅读全文

posted @ 2018-08-01 15:24 MARK+ 阅读(550) 评论(0) 推荐(0) 编辑

2018年7月28日

算法----(6)希尔排序

摘要：希尔排序是希尔（Donald Shell）于1959年提出的一种排序算法。希尔排序也是一种插入排序，它是简单插入排序经过改进之后的一个更高效的版本，也称为缩小增量排序，同时该算法是冲破O(n2）的第一批算法之一图片来源：https://www.cnblogs.com/chengxiao/p/610 阅读全文

posted @ 2018-07-28 22:59 MARK+ 阅读(220) 评论(0) 推荐(0) 编辑

2018年7月27日

算法----(5)插入排序

摘要：从第一个元素开始，该元素可以认为已经被排序取出下一个元素，在已经排序的元素序列中从后向前扫描如果该元素（已排序）大于新元素，将该元素移到下一位置重复步骤3，直到找到已排序的元素小于或者等于新元素的位置将新元素插入到该位置后重复步骤2~5 阅读全文

posted @ 2018-07-27 21:40 MARK+ 阅读(171) 评论(0) 推荐(0) 编辑

2018年7月25日

算法----(4)快速排序

摘要：从图中我们可以看到： left指针，right指针，base参照数。其实思想是蛮简单的，就是通过第一遍的遍历（让left和right指针重合）来找到数组的切割点。第一步：首先我们从数组的left位置取出该数（20）作为基准（base）参照物。第二步：从数组的right位置向前找，一直找到比（b 阅读全文

posted @ 2018-07-25 21:11 MARK+ 阅读(378) 评论(0) 推荐(0) 编辑

2018年7月23日

验证码识别——图形验证码

摘要：先找了一个简单的图形验证码进行测试，比如知网，从网页里把验证码下载到本地进行简单的灰度处理和二值化处理，能够提高不少识别正确率验证码：代码：结果：如果没有灰度处理和二值化处理这个9就总识别错了阅读全文

posted @ 2018-07-23 20:54 MARK+ 阅读(1127) 评论(0) 推荐(0) 编辑

算法----(3)选择排序

摘要：记录一趟中最大（小）元素，最后再进行交换选择排序是不稳定的排序算法，不稳定发生在最小元素与A[i]交换的时刻。比如序列：{ 5, 8, 5, 2, 9 }，一次选择的最小元素是2，然后把2和第一个5进行交换，从而改变了两个元素5的相对次序阅读全文

posted @ 2018-07-23 20:11 MARK+ 阅读(167) 评论(0) 推荐(0) 编辑

2018年7月21日

算法----(2)鸡尾酒排序

摘要：鸡尾酒排序，也叫定向冒泡排序，是冒泡排序的一种改进。此算法与冒泡排序的不同处在于从低到高然后从高到低，而冒泡排序则仅从低到高去比较序列里的每个元素。他可以得到比冒泡排序稍微好一点的效能。 python代码：阅读全文

posted @ 2018-07-21 20:43 MARK+ 阅读(278) 评论(0) 推荐(0) 编辑

算法----(1)冒泡排序

摘要：通常所说的排序算法往往指的是内部排序算法，即数据记录在内存中进行排序。排序算法大体可分为两种：一种是比较排序，时间复杂度O(nlogn)~O(n^2)，主要有：冒泡排序，选择排序，插入排序，归并排序，堆排序，快速排序另一种是非比较排序，时间复杂度可以达到O(n),主要有：基数排序，基数排序，桶阅读全文

posted @ 2018-07-21 20:07 MARK+ 阅读(168) 评论(0) 推荐(0) 编辑

小白羀号

公告