摘要: Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手 阅读全文
posted @ 2018-10-15 15:08 joshua&&chen 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 训练Tesseract 大多数其他的验证码都是比较简单的。例如,流行的 PHP 内容管理系统 Drupal 有一个著 名的验证码模块(https://www.drupal.org/project/captcha),可以生成不同难度的验证码。 那么与其他验证码相比,究竟是什么让这个验证码更容易被人类和 阅读全文
posted @ 2018-10-15 15:05 joshua&&chen 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 尝试对知乎网验证码进行处理: 许多流行的内容管理系统即使加了验证码模块,其众所周知的注册页面也经常会遭到网络 机器人的垃圾注册。 那么,这些网络机器人究,竟是怎么做的呢?既然我们已经,可以成功地识别出保存在电脑上 的验证码了,那么如何才能实现一个全能的网络机器人呢? 大多数网站生成的验证码图片都具有 阅读全文
posted @ 2018-10-15 15:03 joshua&&chen 阅读(559) 评论(0) 推荐(0) 编辑
摘要: 处理给规范的文字 你要处理的大多数文字都是比较干净、格式规范的。格式规范的文字通常可以满足一些需求,不过究竟什么是“格式混乱”,什么算“格式规范”,确实因人而异。 通常,格式规范的文字具有以下特点: 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体) • 虽然被复印或拍照,字体还是很清晰 阅读全文
posted @ 2018-10-15 14:48 joshua&&chen 阅读(610) 评论(0) 推荐(0) 编辑
摘要: 机器视觉 从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域。 我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些 Python库来识别和使用在线图片中的文字。 我们可以很轻松的阅读图片里的文字,但是机器阅读这些图片就 阅读全文
posted @ 2018-10-15 14:44 joshua&&chen 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 案例三:执行 JavaScript 语句 隐藏百度图片 模拟滚动条滚动到底部 阅读全文
posted @ 2018-10-15 14:42 joshua&&chen 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 案例二:动态页面模拟点击 阅读全文
posted @ 2018-10-15 14:41 joshua&&chen 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 案例一:网站模拟登录 阅读全文
posted @ 2018-10-15 14:40 joshua&&chen 阅读(127) 评论(0) 推荐(0) 编辑
摘要: Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们 阅读全文
posted @ 2018-10-15 14:38 joshua&&chen 阅读(194) 评论(0) 推荐(0) 编辑
摘要: JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。 我们可以在网页源代码的<scripy>标签里看到,比如: jQuery jQuery 是一个十分常见的库,70% 阅读全文
posted @ 2018-10-15 14:37 joshua&&chen 阅读(338) 评论(0) 推荐(0) 编辑