摘要: 图像文本识别的步骤一般为图像预处理,图片切割,特征提取、文本分类和图像文本输出几个步骤,我们也可以按这个步骤来识别图像中的数字。 一、图像预处理 在图像预处理中,验证码识别还要对图像进行去燥,文字还原等比较复杂的处理,由于我的图像没什么干扰因素,所以直接对其进行二值处理即可。处理结果如下: 因为图片 阅读全文
posted @ 2016-11-27 13:35 数据之魂 阅读(16277) 评论(10) 推荐(3) 编辑
摘要: 在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点。插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。曲面插值是对三维数据进行离散逼近的方法,MATLAB中的曲面插值函数有Triscatteredinterp,interp2,g 阅读全文
posted @ 2016-11-13 16:40 数据之魂 阅读(8027) 评论(0) 推荐(0) 编辑
摘要: 上回说到,突破反爬虫限制的方法之一就是多用几个代理IP,但前提是我们得拥有有效的代理IP,下面我们来介绍抓取代理IP并多线程快速验证其有效性的过程。 一、抓取代理IP 提供免费代理IP的网站还挺多的,我在‘西刺代理’上一阵猛抓后自己的IP就被其屏蔽了。只好换‘IP巴士’并乖乖的减缓抓取速度了。贴上抓 阅读全文
posted @ 2016-10-24 00:24 数据之魂 阅读(21117) 评论(4) 推荐(0) 编辑
摘要: 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一。鉴于此,我拾起了Python这把利器,开启了网络爬虫之路。 本篇使用的版本为python3.5,意在抓取证券之星上当天所有A股数据。程序主要分为三个部分:网页源码的获取、所需内容的提取、所得结果的整理。 一、网页源码的获 阅读全文
posted @ 2016-09-24 17:10 数据之魂 阅读(34545) 评论(10) 推荐(6) 编辑