12 2017 档案

摘要:今天就聊聊爬虫的清洗,下载网页只是最简单的一个步骤,最让人头疼的是数据的清洗。 为什么要这样说呢,因为爬虫首先是获得数据,清洗是把非结构化的数据转换成结果化的数据,这个时候是最考验人的时候。 如果是国内的网站,清洗工作相对比较简单,因为国内的数据不是那么的凌乱,有一定的规则,我们清洗的时候需要写的规 阅读全文
posted @ 2017-12-28 14:42 淋哥 阅读(1949) 评论(0) 推荐(0) 编辑
摘要:7 阅读全文
posted @ 2017-12-28 14:42 淋哥 阅读(6367) 评论(0) 推荐(2) 编辑
摘要:tornado中的coroutine是python中真正意义上的协程,与python3中的asyncio几乎是完全一样的,而且两者之间的future是可以相互转换的,tornado中有与asyncio相兼容的接口。 下面是利用tornado中的coroutine进行并发抓取的代码: 利用corout 阅读全文
posted @ 2017-12-28 14:42 淋哥 阅读(1045) 评论(0) 推荐(0) 编辑
摘要:至于安装教程在这里不再重复说了,可以参考博客,网上有大把的教程 https://blog.csdn.net/testcs_dn/article/details/78697730 要是别的验证码是如下类型的 Python 代码如下 阅读全文
posted @ 2017-12-28 14:41 淋哥 阅读(684) 评论(1) 推荐(0) 编辑
摘要:Python+Tensorflow的CNN技术快速识别验证码 文章来源于: https://www.jianshu.com/p/26ff7b9075a1 验证码处理的流程是:验证码分析和处理—— tensorflow安装 —— 模型训练 —— 模型预测 需要的准备。 1. 安装TensorFlow 阅读全文
posted @ 2017-12-28 14:30 淋哥 阅读(1514) 评论(1) 推荐(0) 编辑
摘要:今天要聊的就是在爬虫遇到验证码,如何去解决。 1.前言:关于验证码,我觉得是很low逼的技术,但是很多面试官都会问到如何解决验证码,好像是能识别验证的就代表了爬虫工程师的技术很牛逼,相反,爬虫工程师就是菜鸟。我觉得以此来评价爬虫工程师的水平高低,是非常不合理的。 2. 网站为何要用验证码? 网站担心 阅读全文
posted @ 2017-12-28 14:30 淋哥 阅读(5172) 评论(1) 推荐(0) 编辑
摘要:有时候我们需要清洗数据,里面有超链接,怎么去掉他们,比如下面的问题 第一种方法: 用这则替换,把 href 替换为 hre1f 就可以了, 第二种方法: 记录下来,供以后学习参考 阅读全文
posted @ 2017-12-28 14:29 淋哥 阅读(4003) 评论(0) 推荐(0) 编辑
摘要:在我们使用Python + selenium 爬虫的时候,会遇到如下报错,原因是 当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的。 这时候需要借助滚动条来拖动屏幕,使被操作的元素显示在当前的屏幕上。滚动条是无法直接用定位工具来定位的。selenium里面也没有直接 阅读全文
posted @ 2017-12-28 14:29 淋哥 阅读(1528) 评论(0) 推荐(0) 编辑
摘要:1. 测试页面是 https://www.hao123.com/,这个是百度的导航 2. 为了避免网络请求带来的差异,我们把网页下载下来,命名为html,不粘贴其代码。 3.测试办法: 我们在页面中找到 百度新闻 关键字的链接,为了能更好的对比,使程序运行10000次,比较时间差异: 1.正则编码及 阅读全文
posted @ 2017-12-21 11:08 淋哥 阅读(2913) 评论(0) 推荐(0) 编辑
摘要:1. 问题描述 在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司, 并且要求字段 time(时间) 大于7月一号,小于10月31号。 2. 问题解决 我们首先想到的解决办法是添加索引,对拍卖公司字段添加索引,但是因为日期是大于7月1号,小于10月31号,在... 阅读全文
posted @ 2017-12-19 15:54 淋哥 阅读(1196) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示