分享一个近期写的简单版的网页采集器
功能特点:
1、可通过配置,保存采集规则。
2、可通过采集规则,进行数据采集。
3、可分页,分关键字,进行采集。
4、可保存数据至数据库,文本中。
...........
功能还比较简单,喜欢深入的可以继续深入下去,暂时还没有登录的功能,因为登录功能涉及到的范围比较广,待日后慢慢研究后再开发。
我先上个图让大家一睹为快吧:
首先看看页面,我们要采集这个网站的文章
接下来,首先是查找分页,获得分页里面的文章链接,接着查找内容页需要采集的字段,生成规则,进行采集。
最后,可以开始采集了,感兴趣的你,可以试试....
怎么样,有点意思吧?
我们再来看看源码结构,如下图,分层采用的是简单的业务+数据层(Biz)、模型层(Model)、公共设施层(Framework),因为是小项目,所以没有过多的分层
Model层 使用的是EF的CodeFirst 来生成数据库表和字段的,其他不多讲了,自己体会吧。