HTML解析利器 - HtmlAgilityPack

HtmlAgilityPack 是CodePlex 上的一个开源项目。它提供了标准的DOM API 和XPath 导航--即使 HTML 不是适当的格式!

使用HtmlAgilityPack操作HTML比正则表达式好用一些。

下载HtmlAgilityPack

 1 WebClient page = new WebClient();
 2 page.Encoding = Encoding.UTF8;
 3 page.BaseAddress = "http://www.cnblogs.com";
 4 
 5 String url = "/n/200069/";
 6 String html = String.Empty;
 7 
 8 html = page.DownloadString(url);
 9 
10 HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
11 document.LoadHtml(html);
View Code

 取得document对象后,使用XPath对其进行操作。

XPath教程(w3cschool.cn)

posted @ 2014-02-08 14:01  局外人  阅读(237)  评论(0编辑  收藏  举报