摘要: 正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则,一个纯正则,一个参数正则。我们下边分开讲一下。 1.纯正则: 先看一下图 在标签中用正则表达式采内容的格式是这样: 开始代码(?正则表达式)结束代码 其中在开始代码和结束代... 阅读全文
posted @ 2009-04-30 09:24 广陵散仙(www.cnblogs.com/junzhongxu/) 阅读(3818) 评论(0) 推荐(0) 编辑
摘要: 循环采集的原理和网址采集部分相似,我们以论坛主题和回复为例,讲一下循环采集的使用.以http://bbs.locoy.com/spider-34395-1-1.html为例: 我们要获得每一楼的作者,写规则 href="space.php?uid=(*)" style="margin-left: 20px; font-weight: 800">开头, <结尾,默认可以获得一 个结果 rq204 ,... 阅读全文
posted @ 2009-04-30 09:23 广陵散仙(www.cnblogs.com/junzhongxu/) 阅读(1669) 评论(0) 推荐(0) 编辑
摘要: 分页就是目标网站上一个文章分为好几页,我们需要设置规则将其全部采到。采集要点: 1.采集规则要对每个分页都适用。 2.分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是上下页,每个页面的分页规则也要都适用。 具体操作流程:先测试获得所有分页,再对每个分页里的内容进行获取。 下边我们以http://www.pconline.com.cn/diy/graphics/hq/gz/0802/... 阅读全文
posted @ 2009-04-30 09:23 广陵散仙(www.cnblogs.com/junzhongxu/) 阅读(3751) 评论(0) 推荐(1) 编辑
摘要: 使用过滤,替换,可以去除采集到的内容里我们不需要的东西,如干扰码,白色字等。 程序自带的htm标签排除功能已什么全面,可以大面积去除不需要的标签,比如第一个就可以去除所有的链接。 这里的排除支持(*), 这里支持参数型替换,注意这个是标准版有的功能。 需要注意的一点是:程序是先排除后替换。最后使用html标签排除。还有就是替换和排除里的顺序。 看上边的图,这里的替换和排除是有顺序的。可以... 阅读全文
posted @ 2009-04-30 09:23 广陵散仙(www.cnblogs.com/junzhongxu/) 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 何为多页?本来我们是从网址采集那块采集到网址,再对这个网址(也叫默认页)进行采集。但是有时有许多信息他并不在一个页面上,而是和这个默认页有一定的关系,要不他网址在默认页里,要不他网址和默认页网址有联系。我们就这个问题来说一下具体的解决办法。 这里也有两种途径获得第三个网址,我们先讲从默认页网址替换得到新网址。我们以http://data.movie.xunlei.com/movie/39843... 阅读全文
posted @ 2009-04-30 09:22 广陵散仙(www.cnblogs.com/junzhongxu/) 阅读(2308) 评论(0) 推荐(0) 编辑
摘要: 这里我们获得标题,可以选开始""结束"",然后过滤一下 “- 站长网”这字符,也可以开始“"结束”- 站长网“来直接获得 标题。想获得关键字的话可以 开始 下边讲一下怎么获得内容,我们先打开网页源代码,查找内容附近的代码。 来源:郑州人才网 时间:2008-07-31 14:03 字体:[大 中 小] 收藏 我要投稿 做网站我认为最重要的就是两个字&qu... 阅读全文
posted @ 2009-04-30 09:19 广陵散仙(www.cnblogs.com/junzhongxu/) 阅读(922) 评论(0) 推荐(0) 编辑
摘要: 2009版本起,火车采集器加强了post采集网址的功能,这是一个非常好的消息,我们可以提交自定义的数据并获得想要的结果。比如我们使用搜索,查询一个关键字,返回一些结果。我们再采集返回的这些内容网址,再去采它。 我们以程序自带的51job的网址采集说明一下这个功能的使用.我们在获取相关职位时,是设定好搜索,然后再提交,就可以获得我们需要的内容了.现在,我们在提交时用抓包工具抓取一下程序提交的数据,... 阅读全文
posted @ 2009-04-30 09:19 广陵散仙(www.cnblogs.com/junzhongxu/) 阅读(1556) 评论(0) 推荐(0) 编辑
摘要: 使用外部编程接口(PHP),可以对你的数据做任意你想要的处理。不过需要注意的是,目前只能对单一标签里的内容作处理。处理原理是程序先用你写的规则获取内容,然后将数据发送给php相关的程序处理。这个需要有一定php基础的朋友使用。在程序里使用时,请先测试。 这里你可以编写程序,具体的编写方法我们有例子在里边,你可以参考一下。注意对于不处理的标签,也要输出内容,就是echo $LabelConten... 阅读全文
posted @ 2009-04-30 09:16 广陵散仙(www.cnblogs.com/junzhongxu/) 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 数据库入库的效率是相当的高,可以是WEB在发布的10倍或更多。如何使用呢?只要会SQL语句就可以了。 比如dede 5.1的文章入库语句 如上图的。这里是向两个表中添加了字段,archives 和addonarticle.注意里边有个数据表前辍,这个是用来获取第一个插入记录的id,获取的是archives 里的自增字段的值。这个数据表前辍是可以使用多个的,应注意的是那个表里应有个自增字段。其... 阅读全文
posted @ 2009-04-30 09:15 广陵散仙(www.cnblogs.com/junzhongxu/) 阅读(2003) 评论(0) 推荐(0) 编辑