摘要: HtmlCxx用户手册中科院计算所网络数据科学与工程研究中心信息抽取小组gengyun@sohu.com1.1简介HtmlCxx是一款简洁的,非验证式的,用C++编写的css1和html解析器。和其他的几款Html解析器相比,它具有以下的几个特点:使用由KasperPeeters编写的强大的tree.h库文件,可以实现类似STL的DOM树遍历和导航。可以通过解析后生成的树,逐字节地重新生成原始文档。打包好的Css解析器。额外的属性解析功能看似很像C++代码的C++代码(其实已不再是C++了)原始文档中的tags/elements的偏移值都存储在DOM树的节点当中。Htmlcxx的解析策略其实是 阅读全文
posted @ 2011-10-21 19:59 张兰云 阅读(12122) 评论(3) 推荐(0) 编辑