2017 年 12月随笔档案 - 淋哥

Python 爬虫不得不说的清洗

摘要：今天就聊聊爬虫的清洗，下载网页只是最简单的一个步骤，最让人头疼的是数据的清洗。为什么要这样说呢，因为爬虫首先是获得数据，清洗是把非结构化的数据转换成结果化的数据，这个时候是最考验人的时候。如果是国内的网站，清洗工作相对比较简单，因为国内的数据不是那么的凌乱，有一定的规则，我们清洗的时候需要写的规阅读全文

posted @ 2017-12-28 14:42 淋哥阅读(1949) 评论(0) 推荐(0) 编辑

python中decode和encode的区别

摘要：7 阅读全文

posted @ 2017-12-28 14:42 淋哥阅读(6367) 评论(0) 推荐(2) 编辑

基于tornado的爬虫并发问题

摘要：tornado中的coroutine是python中真正意义上的协程，与python3中的asyncio几乎是完全一样的，而且两者之间的future是可以相互转换的，tornado中有与asyncio相兼容的接口。下面是利用tornado中的coroutine进行并发抓取的代码：利用corout 阅读全文

posted @ 2017-12-28 14:42 淋哥阅读(1045) 评论(0) 推荐(0) 编辑

Python——验证码识别 Pillow + tesseract-ocr

摘要：至于安装教程在这里不再重复说了，可以参考博客，网上有大把的教程 https://blog.csdn.net/testcs_dn/article/details/78697730 要是别的验证码是如下类型的 Python 代码如下阅读全文

posted @ 2017-12-28 14:41 淋哥阅读(684) 评论(1) 推荐(0) 编辑

Python Tensorflow CNN 识别验证码

摘要：Python+Tensorflow的CNN技术快速识别验证码文章来源于： https://www.jianshu.com/p/26ff7b9075a1 验证码处理的流程是：验证码分析和处理—— tensorflow安装 —— 模型训练 —— 模型预测需要的准备。 1. 安装TensorFlow 阅读全文

posted @ 2017-12-28 14:30 淋哥阅读(1516) 评论(1) 推荐(0) 编辑

爬虫如何解决验证码的问题

摘要：今天要聊的就是在爬虫遇到验证码，如何去解决。 1.前言：关于验证码，我觉得是很low逼的技术，但是很多面试官都会问到如何解决验证码，好像是能识别验证的就代表了爬虫工程师的技术很牛逼，相反，爬虫工程师就是菜鸟。我觉得以此来评价爬虫工程师的水平高低，是非常不合理的。 2. 网站为何要用验证码？网站担心阅读全文

posted @ 2017-12-28 14:30 淋哥阅读(5177) 评论(1) 推荐(0) 编辑

Python 爬虫数据清洗去掉超链接

摘要：有时候我们需要清洗数据，里面有超链接，怎么去掉他们，比如下面的问题第一种方法：用这则替换，把 href 替换为 hre1f 就可以了，第二种方法：记录下来，供以后学习参考阅读全文

posted @ 2017-12-28 14:29 淋哥阅读(4006) 评论(0) 推荐(0) 编辑

Python selenium 滚动条详解

摘要：在我们使用Python + selenium 爬虫的时候，会遇到如下报错，原因是当页面上的元素超过一屏后，想操作屏幕下方的元素，是不能直接定位到，会报元素不可见的。这时候需要借助滚动条来拖动屏幕，使被操作的元素显示在当前的屏幕上。滚动条是无法直接用定位工具来定位的。selenium里面也没有直接阅读全文

posted @ 2017-12-28 14:29 淋哥阅读(1532) 评论(0) 推荐(0) 编辑

正则和xpath在网页中匹配字段的效率比较

摘要：1. 测试页面是 https://www.hao123.com/，这个是百度的导航 2. 为了避免网络请求带来的差异，我们把网页下载下来，命名为html，不粘贴其代码。 3.测试办法：我们在页面中找到百度新闻关键字的链接，为了能更好的对比，使程序运行10000次，比较时间差异: 1.正则编码及阅读全文

posted @ 2017-12-21 11:08 淋哥阅读(2914) 评论(0) 推荐(0) 编辑

Python 爬虫大量数据清洗 ---- sql语句优化

摘要：1. 问题描述在做爬虫的时候，数据量很大，大约有五百百万条数据，假设有个字段是conmany_name（拍卖公司名称）,我们现在需要从五百万条数据里面查找出来五十家拍卖公司，并且要求字段 time（时间）大于7月一号，小于10月31号。 2. 问题解决我们首先想到的解决办法是添加索引，对拍卖公司字段添加索引，但是因为日期是大于7月1号，小于10月31号，在... 阅读全文

posted @ 2017-12-19 15:54 淋哥阅读(1196) 评论(0) 推荐(0) 编辑

英雄莫问出处,富贵当思缘由

12 2017 档案

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (338)

随笔档案 (452)

文章分类 (6)

文章档案 (19)

阅读排行榜

评论排行榜

推荐排行榜

最新评论