NReadability
昨天写了一篇关于提取网页主题内容的文章,其中用到了一个叫SgmlReader将html标准化成xhtml格式的东西。今天在查询其相关信息的时候,发现了NReadability这个东东,发现这个东西也是提取网页主题内容的,发现效果貌似比我写的那个简单的要好很多。获取代码请访问github。
该工具中还带SgmlReader的源代码,可以说是很给力的,其中还为Xml Dom写了一些关于html Dom的扩展方法,非常实用,感兴趣的可以试试。
NReadability内部的处理方法还不是很了解,等哪天有空了,再详细看看。
![Creative Commons License](http://i.creativecommons.org/l/by/2.5/cn/88x31.png)
本文基于署名 2.5 中国大陆许可协议发布,欢迎转载,演绎或用于商业目的,但是必须保留本文的署名小橋流水(包含链接)。如您有任何疑问或者授权方面的协商,请给我发邮件。