Fork me on GitHub
摘要: 分析 新蛋详情页的价格字段是用图片显示的,虽然其它电商都已经认识到这是没什么卵用还浪费资源的行为但貌似新蛋不这样认为,所以尝试爬取一下。 价格字段大概是这个样子: 这个图片也是很纯净的能够识别率百分百的。 代码实现 还是上之前写的一个小小工具库:https://github.com/CC11001100/commons-simple-character-ocr 首先需要抓取一些图片来生... 阅读全文
posted @ 2018-03-26 03:28 CC11001100 阅读(850) 评论(0) 推荐(0) 编辑
摘要: 分析 蚂蚁代理的列表页大致是这样的: 端口字段使用了图片显示,并且在图片上还有各种干扰线,保存一个图片到本地用画图打开观察一下: 仔细观察蓝色的线其实是在黑色的数字下面的,其它的干扰线也是,所以这幅图是先绘制的干扰线又绘制的端口数字,于是就悲剧了,干扰线形同虚设,所以还是有办法识别的。 然后就是ip字段,看了下ip字段很老实没啥猫腻。 注意到这个列表有一个按端口号筛选的功能,很兴奋... 阅读全文
posted @ 2018-03-26 01:29 CC11001100 阅读(2050) 评论(0) 推荐(0) 编辑