记一些采集器相关的工具类

近日在构想一个采集器的小程序

主要是用来采集文章的

由于文章图片都有防盗链的措施

不得不采用一些手段(不想下载到本地暂时)

这里在对html的解析上没有什么好的解决方法

百度了一下发现两个html解析类

这里发出来推荐一下

先上个国人的:

Jumony

 

Jumony 是开源项目,目前源代码存放在GitHub ,源码地址: https://github.com/Ivony/Jumony  。

效果嘛、、自行测试

 

然后是个老外的:HtmlAgility

HtmlAgilityPack也是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手的

http://htmlagilitypack.codeplex.com/

posted @ 2015-11-21 20:51  吾之初心,永世不忘  阅读(241)  评论(0编辑  收藏  举报