摘要:
使用selenium进行翻页获取职位链接,再对链接进行解析 会爬取到部分空列表,感觉是网速太慢了,加了time.sleep()还是会有空列表 运行结果 阅读全文
摘要:
拉勾网反爬虫做的比较严,请求头多添加几个参数才能不被网站识别 找到真正的请求网址,返回的是一个json串,解析这个json串即可,而且注意是post传值 通过改变data中pn的值来控制翻页 job_name读取的结果是一个列表 ['JAVA高级工程师、爬虫工程师'] ,而我只想得到里面的字符串,在 阅读全文
摘要:
为下一个多线程练练手 不多说了,沙海开始了。 阅读全文
摘要:
日期: [1-9]\d{3}-(0[1-9]|1[0-2])-(0[1-9]|[1-2][0-9]|3[0-1]) 时间: (20|21|22|23|[0-1]\d):[0-5]\d:[0-5]\d 时间戳 1970纪元后经过的浮点秒数 tm_wday; /* 星期 – 取值区间为[0,6],其中0 阅读全文
摘要:
这个链接的正则表达式感觉写的没问题啊,可是匹配不到东西,奇了怪了,先放着吧,xpath可以匹配到 运行结果 阅读全文
摘要:
程序中请求到的和网页中内容不一样,但也是古诗,不是道是不是因为请求头的原因,使得网站推荐的古诗有差异 运行结果 阅读全文
摘要:
。。港澳台的格式不太一样,暂时不想管他们了 。。运行结果的话,我爬取得是当日白天的天气,现在晚上了,数据都没有了(一开始还以为是代码改错了,还一直撤销) 阅读全文
摘要:
和昨天一样的工作量,时间只用了一半,但还是效率有点低了,因为要把两个网页结合起来,所以在列表操作上用了好多时间 目前sublime还输入不了中文,所以把输出注释上,方便看清格式 运行结果: 红色圈出来的是一个字典,包含第一个网页的信息(职位名称,url,位置)和详情页面的职责(工作职责,工作要求), 阅读全文
摘要:
写了一天才写了不到100行。不过总归是按自己的思路完成了 运行结果:(选中的是一部电影, 一页中有25部电影,网站里一共有176页) 感受到了代码的魅力了吗 阅读全文
摘要:
单纯地练习一下xpath 阅读全文
摘要:
1.response.content: 这个是直接从网络上面抓取的数据,没有经过任何解码,所以是一个bytes类型,其实在硬盘上和在网络上传输的字符串都是bytes类型 2.response.text: 这个是str的数据类型,是requests库将response.content进行解码的字符串, 阅读全文
摘要:
希尔排序是希尔(Donald Shell)于1959年提出的一种排序算法。希尔排序也是一种插入排序,它是简单插入排序经过改进之后的一个更高效的版本,也称为缩小增量排序,同时该算法是冲破O(n2)的第一批算法之一 图片来源:https://www.cnblogs.com/chengxiao/p/610 阅读全文
摘要:
从第一个元素开始,该元素可以认为已经被排序 取出下一个元素,在已经排序的元素序列中从后向前扫描 如果该元素(已排序)大于新元素,将该元素移到下一位置 重复步骤3,直到找到已排序的元素小于或者等于新元素的位置 将新元素插入到该位置后 重复步骤2~5 阅读全文
摘要:
从图中我们可以看到: left指针,right指针,base参照数。 其实思想是蛮简单的,就是通过第一遍的遍历(让left和right指针重合)来找到数组的切割点。 第一步:首先我们从数组的left位置取出该数(20)作为基准(base)参照物。 第二步:从数组的right位置向前找,一直找到比(b 阅读全文
摘要:
先找了一个简单的图形验证码进行测试,比如知网,从网页里把验证码下载到本地 进行简单的灰度处理和二值化处理,能够提高不少识别正确率 验证码: 代码: 结果: 如果没有灰度处理和二值化处理这个9就总识别错了 阅读全文
摘要:
记录一趟中最大(小)元素,最后再进行交换 选择排序是不稳定的排序算法,不稳定发生在最小元素与A[i]交换的时刻。 比如序列:{ 5, 8, 5, 2, 9 },一次选择的最小元素是2,然后把2和第一个5进行交换,从而改变了两个元素5的相对次序 阅读全文