摘要: Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 启动Scrapy Shell 进入项目的根目录,执行下列命令来启动shell: Scrapy S 阅读全文
posted @ 2018-08-12 12:47 Nice1949 阅读(316) 评论(0) 推荐(0) 编辑
摘要: Scrapy的安装介绍 Scrapy框架官方网址:http://doc.scrapy.org/en/latest Scrapy中文维护站点:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html Windows 安装方式 Python 2 / 阅读全文
posted @ 2018-08-12 03:33 Nice1949 阅读(305) 评论(0) 推荐(0) 编辑
摘要: ORC库概述 在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python 一直都是非常出色的语言。虽然有很多库可以进行图像处理,但在这里我们只重点介绍:Tesseract 1.Tesseract Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 阅读全文
posted @ 2018-08-12 02:37 Nice1949 阅读(867) 评论(0) 推荐(0) 编辑
摘要: 案例一:网站模拟登录 案例二:动态页面模拟点击 案例三:执行 JavaScript 语句 1.隐藏百度图片 2.模拟滚动条滚动到底部 阅读全文
posted @ 2018-08-12 01:48 Nice1949 阅读(272) 评论(0) 推荐(0) 编辑
摘要: JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。 我们可以在网页源代码的<scripy>标签里看到,比如: jQuery jQuery是一个十分常见的库,70% 最 阅读全文
posted @ 2018-08-12 01:31 Nice1949 阅读(418) 评论(0) 推荐(0) 编辑