记一些采集器相关的工具类
近日在构想一个采集器的小程序
主要是用来采集文章的
由于文章图片都有防盗链的措施
不得不采用一些手段(不想下载到本地暂时)
这里在对html的解析上没有什么好的解决方法
百度了一下发现两个html解析类
这里发出来推荐一下
先上个国人的:
Jumony
Jumony 是开源项目,目前源代码存放在GitHub ,源码地址: https://github.com/Ivony/Jumony 。
效果嘛、、自行测试
然后是个老外的:HtmlAgility
HtmlAgilityPack也是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手的
http://htmlagilitypack.codeplex.com/