分享一个近期写的简单版的网页采集器

功能特点

1、可通过配置,保存采集规则。

2、可通过采集规则,进行数据采集。

3、可分页,分关键字,进行采集。

4、可保存数据至数据库,文本中。

...........

 

功能还比较简单,喜欢深入的可以继续深入下去,暂时还没有登录的功能,因为登录功能涉及到的范围比较广,待日后慢慢研究后再开发。

我先上个图让大家一睹为快吧:

首先看看页面,我们要采集这个网站的文章

 

接下来,首先是查找分页,获得分页里面的文章链接,接着查找内容页需要采集的字段,生成规则,进行采集。

 

最后,可以开始采集了,感兴趣的你,可以试试....

 

 

怎么样,有点意思吧?

我们再来看看源码结构,如下图,分层采用的是简单的业务+数据层(Biz)、模型层(Model)、公共设施层(Framework),因为是小项目,所以没有过多的分层

Model层 使用的是EF的CodeFirst 来生成数据库表和字段的,其他不多讲了,自己体会吧。

 

下载源码

posted @ 2015-09-22 10:20  虔城墨客  阅读(768)  评论(0编辑  收藏  举报