分享一个近期写的简单版的网页采集器

功能特点：

1、可通过配置，保存采集规则。

2、可通过采集规则，进行数据采集。

3、可分页，分关键字，进行采集。

4、可保存数据至数据库，文本中。

...........

功能还比较简单，喜欢深入的可以继续深入下去，暂时还没有登录的功能，因为登录功能涉及到的范围比较广，待日后慢慢研究后再开发。

我先上个图让大家一睹为快吧：

首先看看页面，我们要采集这个网站的文章

接下来，首先是查找分页，获得分页里面的文章链接，接着查找内容页需要采集的字段，生成规则，进行采集。

最后，可以开始采集了，感兴趣的你，可以试试....

怎么样，有点意思吧？

我们再来看看源码结构，如下图，分层采用的是简单的业务+数据层(Biz)、模型层(Model)、公共设施层（Framework），因为是小项目，所以没有过多的分层

Model层使用的是EF的CodeFirst 来生成数据库表和字段的,其他不多讲了，自己体会吧。

posted @ 2015-09-22 10:20 虔城墨客阅读(785) 评论(0) 收藏举报

刷新页面返回顶部

梦醒花犹存，铁甲依然在