【数据采集平台】教程-单页面采集

使用教程——单页面采集

测试版

采集单个页面。单个页面是指：一个页面中只包含一条采集信息的页面，例如文章详情页面，一个url对应一篇文章信息。

打开“配置中心” > “新建爬虫” > “单页面类型” 菜单，进入爬虫配置界面：

项	是否必填	说明	示例
爬虫名字	是	任意字符，不可与以有的爬虫名称重复	微信文章爬虫
采集源	是	采集的网站名称	微信
源页面	是	要采集的源链接，必须为规范的url	https://baidu.com
匹配开头	是	以该值开头的链接才会被采集	https://baidu.com
最大采集量	是	单个爬虫最大支持采集量为10000	500
线程数	是	一个爬虫所启用的线程数，最大值为3	1
允许JS	否	启用JS可以采集动态网页，但是采集速度将会变慢，默认不启用	不启用
描述	否	任意值，对爬虫的表述	这是一个微信文章爬虫

基本配置完成后，点击“下一步”进行采集规则配置。

项	是否必填	说明	示例
字段code	是	采集字段唯一标识，同一个爬虫中的字段code不可重复	title
字段标题	是	采集字段唯的名称	文章标题
采集规则	是	采集规则，使用css选择器，很重要。	.div > .title
采集类型	是	TEXT：采集文本内容，HTML：采集HTML内容，ATTR：采集属性值，当选择ATTR时，下面的属性值必填	TEXT
属性值	否	当采集类型为ATTR时必填，其他情况不填	href
非空字段	否	是否为非空字段，若是，则当该字段为空时，数据将不会被保存	否
去重字段	否	是否是去重字段，若是则会更具该字段进行去重，重复的数据将不会被保存	否

采集规则配置说明：

目前使用css选择器的方式来定位html元素，所以可以使用浏览器自带的检查元素功能来快速找到css选择器路径（以谷歌浏览器为例）

比例如需要采集csdn博客首页的文章：

在需要采集的链接上右键，选择“检查”：

然后浏览器自动定位到所选元素，再右键“copy” -> “copy selector”

在将复制的内容粘贴到“采集规则”输入框即可。

采集规则配置完成后，点击“下一步”，选择“保存”或者“启动爬虫”。“保存”将不会启动爬虫，需要在“数据采集” > “状态管理” 中找到刚配置的爬虫，点击“启动”。

posted @ 2019-02-28 09:55 SEC.VIP_网络安全服务阅读(212) 评论(0) 收藏举报

刷新页面返回顶部