NReadability

昨天写了一篇关于提取网页主题内容的文章,其中用到了一个叫SgmlReader将html标准化成xhtml格式的东西。今天在查询其相关信息的时候,发现了NReadability这个东东,发现这个东西也是提取网页主题内容的,发现效果貌似比我写的那个简单的要好很多。获取代码请访问github

该工具中还带SgmlReader的源代码,可以说是很给力的,其中还为Xml Dom写了一些关于html Dom的扩展方法,非常实用,感兴趣的可以试试。

NReadability内部的处理方法还不是很了解,等哪天有空了,再详细看看。

posted on 2011-10-07 10:30  小橋流水  阅读(237)  评论(0编辑  收藏  举报

导航