使用XPath解析HTML获取网页内容

有的时候，我们开发的应用需要抓取网页的内容借为己用，如QQ网站的天气信息和新闻等，和Google等搜索爬虫的机制不同之处在于抓取目标的页面对开发人员而言是已知的。我们有理由避免过多的使用正则表达式的繁冗分析过程，如果能够在获取目标网页的HTML之后通过DOM来解析HTML将是一件非常愉快的事情。这里会遇到两个问题，DOM操作只能在客户端通过Javascript或VBScript等脚本语言进行，加上HTML自身不是非强格式的，不能使用类似XSL对XML解析的方式进行操作。不过既然写这篇Blog，就一定有了解决的办法J。

非常感谢Microsoft的XML大师Chris Lovett为我们带来的SgmlReader这个开源的项目。我们知道，XML和HTML都是Sgml的子集。通过SgmlReader，能够将HTML转换生成格式规范的HTML（Well-Formed HTML，虽然没有这个称呼，但这里暂且这么说），从而可以使用XML的XPath语法读取网页的数据了。那么在.NET Framework下，我们遇到的问题变得如此轻松。

简单写了一个示例程序，用来抓取QQ网站的天气信息，通过更改城市名称和XPath获得网页内容。

代码：下载

PS：除了SgmlReader之外，还有Simon Mourier的.NET Html Agility Pack也具有类似的功能。

posted on 2005-02-06 01:05 Microtoby 阅读(6456) 评论(14) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 单线程的Redis速度为什么快？
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 展开说说关于C#中ORM框架的用法！
· SQL Server 2025 AI相关能力初探
· Pantheons：用 TypeScript 打造主流大模型对话的一站式集成库

公告

孙鹏(Microtoby)是微软Office SharePoint Portal Server领域的最有价值专业人士(MVP)。从2002年开始接触SharePoint产品。
2005年05月在新加坡参加亚太地区MVP峰会；
2005年10月在美国西雅图参加全球MVP峰会；
2004年01月至今任职于Tencent，主要方向为知识管理；
此Blog中的文章和随笔仅代表作者在某一特定时间内的观点和结论，对其完全的正确定不做任何担保或假设。所有此处的原创文章转载必须知会作者本人。如有疑问，请发邮件至： microtoby@gmail.com

孙鹏's Blog

使用XPath解析HTML获取网页内容

导航

公告

搜索

常用链接

积分与排名

随笔分类 (17)

随笔档案 (18)

文章分类 (1)

文章档案 (1)

相册 (1)

Microtoby Oneline

阅读排行榜

评论排行榜

推荐排行榜

最新评论