2008 年 6月 25 日随笔档案 - Dirain

2008年6月25日

浅谈文章采集,就拿博客园热门文章举例！

摘要：以前写了篇“百度视频采集"的思路简介，看到唯一一个人留言希望我总结一下新闻采集。今天就拿博客园的热门文章采集做个例子。说明前我得声明一点，经过在博客园混了几个月后，发现博客园首页发布的文章一般都是高手，很有参考价值。可我是一个新手，我请大家此文章的任何质疑直接留言，因为您发现问题不说出来，可能我永远会认为自己写的是正确的。下面进入正题。首先需要注意的是采集网页上数据的唯一方式是必须获取需要采集页面的源代码，这点想必大家很清楚。因为我们不知道对方网站的数据库服务器连接方式，我们只能在页面的源代码中找寻我们想要的东西。这无疑就是对大量字符串进行处理，那么我们如何处理这些含有大量html标记与内容的代码呢?可能解决问题的方式有很多种，但我认为用正则表达式来解决这个问题会很好。通过上面的话，我谈到了两个知识点，我们来总结一下流程。 1.获取需要采集页面的源代码。 2.利用正则表达式处理这些代码中我们想要的内容。阅读全文

posted @ 2008-06-25 23:11 Dirain 阅读(3877) 评论(19) 推荐(0) 编辑

Dirain的开源地带

公告

浅谈文章采集,就拿博客园热门文章举例！