2009 年 4月 30 日随笔档案 - 广陵散仙（www.cnblogs.com/junzhongxu/）

2009年4月30日

摘要：正则表达式很强大，利用它我们可以获得一定格式的数据，比如网址，E-mail地址，数字，字母等等．可喜的是，从3.2版开始，火车采集器就支持正则规则的编写了，这给喜欢用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则，一个纯正则，一个参数正则。我们下边分开讲一下。 1.纯正则：先看一下图在标签中用正则表达式采内容的格式是这样：开始代码(?正则表达式)结束代码其中在开始代码和结束代... 阅读全文

posted @ 2009-04-30 09:24 广陵散仙（www.cnblogs.com/junzhongxu/）阅读(3818) 评论(0) 推荐(0) 编辑

火车头使用循环匹配采集多条内容

摘要：循环采集的原理和网址采集部分相似,我们以论坛主题和回复为例,讲一下循环采集的使用.以http://bbs.locoy.com/spider-34395-1-1.html为例: 我们要获得每一楼的作者,写规则 href="space.php?uid=(*)" style="margin-left: 20px; font-weight: 800">开头, <结尾,默认可以获得一个结果 rq204 ,... 阅读全文

posted @ 2009-04-30 09:23 广陵散仙（www.cnblogs.com/junzhongxu/）阅读(1669) 评论(0) 推荐(0) 编辑

火车头使用分页采集有分页的数据

摘要：分页就是目标网站上一个文章分为好几页，我们需要设置规则将其全部采到。采集要点： 1.采集规则要对每个分页都适用。 2.分页规则如果是全部列出，只要第一个页面的分页规则就可以了。如果是上下页，每个页面的分页规则也要都适用。具体操作流程：先测试获得所有分页，再对每个分页里的内容进行获取。下边我们以http://www.pconline.com.cn/diy/graphics/hq/gz/0802/... 阅读全文

posted @ 2009-04-30 09:23 广陵散仙（www.cnblogs.com/junzhongxu/）阅读(3751) 评论(0) 推荐(1) 编辑

火车头过滤、替换、去除无用信息

摘要：使用过滤，替换，可以去除采集到的内容里我们不需要的东西，如干扰码，白色字等。程序自带的htm标签排除功能已什么全面，可以大面积去除不需要的标签，比如第一个就可以去除所有的链接。这里的排除支持(*), 这里支持参数型替换，注意这个是标准版有的功能。需要注意的一点是:程序是先排除后替换。最后使用html标签排除。还有就是替换和排除里的顺序。看上边的图，这里的替换和排除是有顺序的。可以... 阅读全文

posted @ 2009-04-30 09:23 广陵散仙（www.cnblogs.com/junzhongxu/）阅读(888) 评论(0) 推荐(0) 编辑

火车头使用多页同时采集多个页面

摘要：何为多页？本来我们是从网址采集那块采集到网址，再对这个网址（也叫默认页）进行采集。但是有时有许多信息他并不在一个页面上，而是和这个默认页有一定的关系，要不他网址在默认页里，要不他网址和默认页网址有联系。我们就这个问题来说一下具体的解决办法。这里也有两种途径获得第三个网址，我们先讲从默认页网址替换得到新网址。我们以http://data.movie.xunlei.com/movie/39843... 阅读全文

posted @ 2009-04-30 09:22 广陵散仙（www.cnblogs.com/junzhongxu/）阅读(2308) 评论(0) 推荐(0) 编辑

火车头使用前后截取模式采集数据

摘要：这里我们获得标题，可以选开始""结束""，然后过滤一下 “- 站长网”这字符，也可以开始“"结束”- 站长网“来直接获得标题。想获得关键字的话可以开始下边讲一下怎么获得内容，我们先打开网页源代码，查找内容附近的代码。来源:郑州人才网时间:2008-07-31 14:03 字体:[大中小] 收藏我要投稿做网站我认为最重要的就是两个字&qu... 阅读全文

posted @ 2009-04-30 09:19 广陵散仙（www.cnblogs.com/junzhongxu/）阅读(922) 评论(0) 推荐(0) 编辑

火车头POST方式获得网址

摘要： 2009版本起，火车采集器加强了post采集网址的功能，这是一个非常好的消息，我们可以提交自定义的数据并获得想要的结果。比如我们使用搜索，查询一个关键字，返回一些结果。我们再采集返回的这些内容网址，再去采它。我们以程序自带的51job的网址采集说明一下这个功能的使用．我们在获取相关职位时，是设定好搜索，然后再提交，就可以获得我们需要的内容了．现在，我们在提交时用抓包工具抓取一下程序提交的数据，... 阅读全文

posted @ 2009-04-30 09:19 广陵散仙（www.cnblogs.com/junzhongxu/）阅读(1556) 评论(0) 推荐(0) 编辑

火车头外部PHP编程的使用

摘要：使用外部编程接口(PHP)，可以对你的数据做任意你想要的处理。不过需要注意的是，目前只能对单一标签里的内容作处理。处理原理是程序先用你写的规则获取内容，然后将数据发送给php相关的程序处理。这个需要有一定php基础的朋友使用。在程序里使用时，请先测试。这里你可以编写程序，具体的编写方法我们有例子在里边，你可以参考一下。注意对于不处理的标签，也要输出内容，就是echo $LabelConten... 阅读全文

posted @ 2009-04-30 09:16 广陵散仙（www.cnblogs.com/junzhongxu/）阅读(733) 评论(0) 推荐(0) 编辑

火车头数据库发布模块编辑器的使用

摘要：数据库入库的效率是相当的高，可以是WEB在发布的10倍或更多。如何使用呢？只要会SQL语句就可以了。比如dede 5.1的文章入库语句如上图的。这里是向两个表中添加了字段，archives 和addonarticle.注意里边有个数据表前辍，这个是用来获取第一个插入记录的id,获取的是archives 里的自增字段的值。这个数据表前辍是可以使用多个的，应注意的是那个表里应有个自增字段。其... 阅读全文

posted @ 2009-04-30 09:15 广陵散仙（www.cnblogs.com/junzhongxu/）阅读(2003) 评论(0) 推荐(0) 编辑

技术归档|测试文章|测试工具|开发文档|开发工具|IT幽默|样式设计

好技术、好文章、好点子、测试文章、测试工具、开发文档、开发工具

公告