2013年11月21日

浅谈HtmlCleaner+XPath解析html或者xml

摘要: 解析html或者xml可以选用:DocumentBuilder或者HtmlCleanerDocumentBuilder与js中document没有太大的区别,而且不适用,在此不过多介绍。进入正题:HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具 阅读全文

posted @ 2013-11-21 11:30 谢皓宇 阅读(4246) 评论(0) 推荐(0) 编辑

导航