摘要: HtmlAgilityPack是一个开源的html解析器,底层是通过将html格式转成标准的xml格式文件来实现的(使用dot net里的XPathDocument等xml相关类),可以从这里下载:http://htmlagilitypack.codeplex.com。可以通过指定xpath路径提取需要的内容,上面那个网站也提供了一个自动生成xpath路径的工具HAP Explorer。缺点和上面使用mshtml com组件一样,内存占用非常大,会耗光所有物理内存。3、使用SgmlReaderSgmlReader也是一个开源的解析器,可以从这里下载(微软自己网站上的那个不完整,缺少一些文件)。 阅读全文
posted @ 2011-10-13 14:13 洪胜 阅读(894) 评论(0) 推荐(0) 编辑
摘要: XPath 是XML的查询语言,和SQL的角色很类似。以下面XML为例,介绍XPath 的语法。 Bob Dylan 10.90 Bonnie Tyler 9.90 Dolly Parton 9.90 定位节点 XML是树状结构,XPath也类似档案系统的路径命名方式。不过XPath 是一种模式(Pattern),可以选出 XML档案中,路径符合某个模式的所有节点出来。例如要选catalog底下的cd中所有price元素可以用:/catalog/cd/price如果XPath的开头是一个斜线(/)代表这是绝对路径。如果开头是两个斜线(//)表示文件中所有符合模式的元素都会被选出来,即使是处于. 阅读全文
posted @ 2011-10-13 14:09 洪胜 阅读(164) 评论(0) 推荐(0) 编辑