Python即时网络爬虫：API说明

API说明——下载gsExtractor内容提取器

下载内容提取器

如果您想编写一个网络爬虫程序，您会发现大部分时间耗费在调测网页内容提取规则上，不讲正则表达式的语法如何怪异，即便使用XPath，您也得逐个编写和调试。

如果要从一个网页上提取很多字段，逐个调试XPath将是十分耗时的。通过这个接口，你可以直接获得一个调测好的提取器脚本程序，是标准的XSLT程序，您只需针对目标网页的DOM运行它，就能获得XML格式的结果，所有字段一次性获得。

这个XSLT提取器可以是您用MS谋数台生成的，也可以是其他人共享给您的，只要您有读权限，皆可下载使用。

用于数据分析和数据挖掘的网络爬虫程序中，内容提取器是影响通用性的关键障碍，如果这个提取器是从API获得的，您的网络爬虫程序就能写成通用的框架。请参看GooSeeker的开源Python网络爬虫项目（访问网址：）。

3.1，接口地址（URL）

3.2，请求类型（contentType）
不限

3.3，请求方法
HTTP GET

3.4，请求参数

注释：请参看GooSeeker网络爬虫术语解释：集搜客GooSeeker专有名词解释（访问网址：）

3.5，返回类型（contentType）
text/xml; charset=UTF-8

3.6，返回参数
HTTP消息头中的参数，如下：

more-extractor 类型：String；说明：相同规则名下有多少个提取器。通常只在可选参数没有填写的时候需要关注这个参数，用以提示客户端有多个规则和整理箱，客户端自己决定是否要在发送请求时携带明确的参数

3.7，返回错误信息

具体的code值如下：

keyError：权限验证失败
paramError：URL中传来的参数有误，比如，参数名称或值不正确
empty：非错误状态，而是请求的提取器是不存在的，比如，某个抓取规则并没有创建整理箱，则返回empty

示例代码：

接下来我会对此API进行测试，将案例发布出来。

1，2016-06-23：V1.0

posted on 2016-06-23 10:27 华天清阅读(2125) 评论(0) 收藏举报

刷新页面返回顶部