导航

dedecms采集完整教程一

Posted on 2013-05-14 20:21  曙光城邦  阅读(444)  评论(0编辑  收藏  举报

 

先说一下采集的原理吧。

一内容:

当我们采集内容的时候,可以发现内容页都是用的同一个模板,即样子一样,内容不一样。所以我们可以在html代码中找到显示内容的那个html代码的开始和结尾。

如内容页html代码为:

<p><b>这里是内容一</b></p>

则所有内容页都是以<p><b>开始 以</b></p>结尾,它们中间的那一段是内容。我们提取的就是它们之前的那一段。

它的规则设置在上图的 内容配置 这个tab里。

二 网址:

  内容页的内容我们已经找到规律了,可以抓取了。但内容页的网址从哪里来呢,那当然是列表页或者首页了等等所有可以找到内容页链接的网页。一般是列表页和首页。

它的规则设置就在 网址索引 这个tab,就上图的界面。

  1.列表页获取网址

   列表页也是有规律的  如 list_1.html ,list_2.html 代表第一页,第二页等等,若共有30页。那它就是 list_1.html 到 list_30.html

  它的规则描述在 批量生成列表网址 这个选项里,点击后,对刚才的规则就可以设置为  list_(*).html  。 (*)从1到30 。就表达了列表页获取网址的规则

 2.首页或单页获取网址

  如果想从某个单内获取网址,如首页。

  则选择,手工指定列表网址。 填写首页和其他单页,以及没有规律的页面。从中获取内容页的网址。

 

三、文章网址匹配规则

   这个是填写包含内容页网址的html代码的一个区域。用于提高匹配效率。设置它后,将从它之间的html代码中搜索内容页地址。

 

四、对区域网址进行再次筛选

   这个就是要匹配的内容页url。它匹配超链接的 href的值,即网址。

   不能包含 则表示内容url中不应该包含什么字符。即包含该字符的网址将舍弃。

1.填写 节点名称。

2.填写网址索引。其中 区域匹配模式,默认为字符串,用于匹配下面的文章区域的。

3.填写内容配置。即内容页的规则

 

五、内容配置

 

预览网址,就是要测试的内容页的地址。

匹配规则,就是刚才讲过的如<p><b>[内容]</b></p>。即包含内容的那段规律的html代码。 [内容] 为要匹配的内容。

过滤规则,就是对获取到的 [内容] ,再进行一次过滤,如过滤掉脚本或者超链接等。

 

自定义处理接口,可以使用自定义函数对内容进行任何处理。@body代表原始网页。@me即为过滤后的[内容]。

自定义接口就是一个公共函数,可以定义在 include/extend.func.php 文件中。该公共函数应该返回一个字符串。即重新设置@me的值为处理后的字符串。

 

下次我使用了没介绍的地方后,再写另外一个教程吧,希望对大家有帮助。

 

下面就把上面说的这个采集规则给大家,可以导入采集规则后进行学习。注意要删掉内容配置里的自定义接口,因为你那边没定义,会出错的。

BASE64:e2RlZGU6bGlzdGNvbmZpZ30NCg0Ke2RlZGU6bm90ZWluZm8gbm90ZW5hbWU9IuWbveWGhV/lm73lpJZf6aaW6aG16YeH6ZuGX+iHquW3seWMuuWIhj4+Pj4iIGNoYW5uZWxpZD0iMSIgbWFjdGh0eXBlPSJzdHJpbmciDQogICAgcmVmdXJsPSJodHRwOi8vd3d3LmR5dHQ4Lm5ldC9odG1sL2duZHkvZHl6ei8yMDEzMDQyOS80MjAzNS5odG1sIiBzb3VyY2VsYW5nPSJnYjIzMTIiIGNvc29ydD0iYXNjIg0KICBpc3JlZj0ibm8iIGV4cHRpbWU9IjEwIiB1c2Vtb3JlPSIwIiAvfQ0Ke2RlZGU6bGlzdHJ1bGUgc291cmNldHlwZT0iaGFuZCIgcnNzdXJsPSJodHRwOi8vIiByZWd4dXJsPSJodHRwOi8vd3d3LmR5MjAxOC5jb20vaHRtbC96b25neWkyMDEzL2xpc3RfOTlfKCopLmh0bWwiDQpzdGFydGlkPSIxIiBlbmRpZD0iMSIgYWRkdj0iMSIgdXJscnVsZT0iYXJlYSIgbXVzdGhhcz0iL2h0bWwvZ25keS8uK1wuaHRtbCINCiBub3RoYXM9ImluZGV4Lmh0bWwiIGxpc3RwaWM9IjAiIHVzZW1vcmU9IjAifQ0KICAgIHtkZWRlOmFkZHVybHN9aHR0cDovL3d3dy5keTIwMTguY29tL2luZGV4Lmh0bWx7L2RlZGU6YWRkdXJsc30NCiAgICB7ZGVkZTpiYXRjaHJ1bGV9ey9kZWRlOmJhdGNocnVsZX0NCiAgICB7ZGVkZTpyZWd4cnVsZX17L2RlZGU6cmVneHJ1bGV9DQogICAge2RlZGU6YXJlYXN0YXJ0fTwhLS19ZW5kOuermeWGheWFrOWRii0tPnsvZGVkZTphcmVhc3RhcnR9DQogICAge2RlZGU6YXJlYWVuZH08IS0te3N0YXJ0Oua4uOaIj+aOqOiNkC0tPnsvZGVkZTphcmVhZW5kfQ0Key9kZWRlOmxpc3RydWxlfQ0KDQoNCnsvZGVkZTpsaXN0Y29uZmlnfQ0KDQp7ZGVkZTppdGVtY29uZmlnfQ0KDQp7ZGVkZTpzcHBhZ2Ugc3B0eXBlPSdmdWxsJyBzcnVsPScxJyBlcnVsPSc1J317L2RlZGU6c3BwYWdlfQ0Ke2RlZGU6cHJldmlld3VybH1odHRwOi8vd3d3LmR5MjAxOC5jb20vaHRtbC96b25neWkyMDEzL2RhbHV6b25neWkvMjAxMzA0MjAvNDIwNjAuaHRtbHsvZGVkZTpwcmV2aWV3dXJsfQ0Ke2RlZGU6a2V5d29yZHRyaW195LiL6L29ey9kZWRlOmtleXdvcmR0cmltfQ0Ke2RlZGU6ZGVzY3JpcHRpb250cmltfeWFjei0ueS4i+i9vXsvZGVkZTpkZXNjcmlwdGlvbnRyaW19DQp7ZGVkZTppdGVtIGZpZWxkPSd0aXRsZScgdmFsdWU9JycgaXN1bml0PScnIGlzZG93bj0nJ30NCiAgIHtkZWRlOm1hdGNofTx0aXRsZT5b5YaF5a65XTwvdGl0bGU+ey9kZWRlOm1hdGNofQ0KICAge2RlZGU6dHJpbSByZXBsYWNlPSIifei/hembt+S4i+i9vV/nlLXlvbHlpKnloIJ7L2RlZGU6dHJpbX0NCiAgIHtkZWRlOmZ1bmN0aW9ufXsvZGVkZTpmdW5jdGlvbn0NCnsvZGVkZTppdGVtfXtkZWRlOml0ZW0gZmllbGQ9J3dyaXRlcicgdmFsdWU9JycgaXN1bml0PScnIGlzZG93bj0nJ30NCiAgIHtkZWRlOm1hdGNofXsvZGVkZTptYXRjaH0NCiAgIA0KICAge2RlZGU6ZnVuY3Rpb259ey9kZWRlOmZ1bmN0aW9ufQ0Key9kZWRlOml0ZW19e2RlZGU6aXRlbSBmaWVsZD0nc291cmNlJyB2YWx1ZT0nJyBpc3VuaXQ9JycgaXNkb3duPScnfQ0KICAge2RlZGU6bWF0Y2h9ey9kZWRlOm1hdGNofQ0KICAgDQogICB7ZGVkZTpmdW5jdGlvbn17L2RlZGU6ZnVuY3Rpb259DQp7L2RlZGU6aXRlbX17ZGVkZTppdGVtIGZpZWxkPSdwdWJkYXRlJyB2YWx1ZT0nJyBpc3VuaXQ9JycgaXNkb3duPScnfQ0KICAge2RlZGU6bWF0Y2h9ey9kZWRlOm1hdGNofQ0KICAgDQogICB7ZGVkZTpmdW5jdGlvbn17L2RlZGU6ZnVuY3Rpb259DQp7L2RlZGU6aXRlbX17ZGVkZTppdGVtIGZpZWxkPSdib2R5JyB2YWx1ZT0nJyBpc3VuaXQ9JzEnIGlzZG93bj0nJ30NCiAgIHtkZWRlOm1hdGNofTwhLS1Db250ZW50IFN0YXJ0LS0+W+WGheWuuV08YnI+PGNlbnRlcj48L2NlbnRlcj57L2RlZGU6bWF0Y2h9DQogICB7ZGVkZTp0cmltIHJlcGxhY2U9IiJ9PGFcc2hyZWY9W1wiXCddaHR0cDovL1teXCJcJ10rW1wiXCddW14+XSo+KC4qKTwvYT57L2RlZGU6dHJpbX0NCntkZWRlOnRyaW0gcmVwbGFjZT0iIn08c2NyaXB0KFtePl0qKT4oLiopPC9zY3JpcHQ+ey9kZWRlOnRyaW19DQogICB7ZGVkZTpmdW5jdGlvbn1AbWU9Y3VzdG9tQ29udGVudChAYm9keSxAbWUpOw0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0Key9kZWRlOmZ1bmN0aW9ufQ0Key9kZWRlOml0ZW19DQoNCnsvZGVkZTppdGVtY29uZmlnfQ==:END