摘要: 1.安装CentOS 6.10 首先安装 "VirtualBox" ,默认安装过程即可。然后在VirtualBox中新建一个虚拟机来安装 "CentOS 6.10" 。下载的是 "CentOS 6.10 x86_64 minimal.iso" 。 2.匹配网络 因为是minimal,没有图形界面,安 阅读全文
posted @ 2019-08-05 09:32 gkimeeq 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 1.Scrapy项目的默认结构 所在有目录为项目的根目录。此文件包含了配置文件的说明。 默认情况下会使用 这个配置。可以使用 环境变量来指定不同的项目。 2.scrapy工具的使用 直接运行获得帮助说明: 创建项目: 控制项目: 可用的工具命令: 阅读全文
posted @ 2019-08-02 09:07 gkimeeq 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 当Spider收集Item后会把它传递到Item管道,按照一定的顺序执行处理。每个Item管道组件是实现了简单方法的Python类,接收到Item后执行一些行为,可以决定此Item是否继续通过管道,或被丢弃。 Item管道的典型应用有: 1.编写Item管道 每个Item管道组件是一个独立的Pyth 阅读全文
posted @ 2019-08-01 10:20 gkimeeq 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 当抓取网页时,最常见的任务是从HTML源码中提取数据,用Beautiful Soup或lxml都可以。Beautiful Soup是基于HTML代码的结构来构造一个Python对象,对不良标记的处理也很合理,缺点就是慢。而lxml是基于ElementTree(不是Python标准库的一部分)的Pyt 阅读全文
posted @ 2019-07-31 10:45 gkimeeq 阅读(172) 评论(0) 推荐(0) 编辑
摘要: `Spider`类定义如何爬取指定的一个或多个网站,包括是否要跟进网页里的链接和如何提取网页内容中的数据。 爬取的过程是类似以下步骤的循环: 1. 类 2.爬虫参数 爬虫可以接受参数来改变它的行为。这些参数一般用来定义初始URL,或者限定爬取网站的部分内容,也可以用来配置其它任何功能。 在运行 命令 阅读全文
posted @ 2019-07-24 17:20 gkimeeq 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 爬虫的主要目标是从页面爬取非结构性的数据然后提取出结构性数据。Scrapy提供 类可以实现这样的要求。 对象是简单的容器,用于保存爬取到的数据。 1. 类 2. 类 3.声明 使用简单的类定义语法和 对象来声明。 4. 字段 对象指定了每个字段的元数据(metadata)。每个字段可以指明任何类型的 阅读全文
posted @ 2019-07-23 13:51 gkimeeq 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 1.进入到一个要创建Scrapy项目的文件夹,然后运行以下命令来生成默认的Scrapy项目结构。 在Linux CentOS 6.10中,运行 然后生成的目录结构如下: 2.定义Item 打开 ,把 类改为: 3.Spider爬虫 在 文件夹中新建 ,代码如下: 然后在 的目录下,运行 运行完,会在 阅读全文
posted @ 2019-07-22 13:26 gkimeeq 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 默认的情况下,Scrapy项目的默认结构如下: 1.scrapy.cfg Scrapy的项目配置文件。配置参数是以ini文件的风格来定义,即 的格式 。这里的scrapy.cfg是位于项目根目录。Scrapy也会查找系统和用户的scrapy.cfg。 系统级的配置文件位于 或`c:\scrapy\s 阅读全文
posted @ 2019-07-22 08:43 gkimeeq 阅读(368) 评论(0) 推荐(0) 编辑
摘要: Origin对OpenCV进行了包装,因此在Origin C中可以调用OpenCV的相关函数。下面就用OpenCV官网的一个例子来演示怎么在Origin C里调用OpenCV。 1.包含头文件 这个头文件其实就是又包含了其它的一些头文件,包括OpenCV的类型相关的、核心的、图像处理的、Origin 阅读全文
posted @ 2019-07-19 13:34 gkimeeq 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 1.安装 2.官网的一个简单例子 "https://docs.scrapy.org/en/latest/intro/overview.html" 在Linux CentOS 6 10下: 然后把上面的代码粘上去, 保存并退出 。然后运行这个爬虫。 跑完后,会在当前目录下生成 。 显示输出文件的内容: 阅读全文
posted @ 2019-07-19 09:51 gkimeeq 阅读(133) 评论(0) 推荐(0) 编辑