htmlAgilitypack抓取页面总结

近两天一直在搞页面抓取,先开始是想从正则式下手,然后轻而易举的写了个抓取总页数的正则,并且成功抓到,后来抓取table里的数据真发愁了,因为table里的数据有图片属性,有td值,很不好抓,幸好找了个好插件htmlAgilitypack转换xml,废话不多说,开始总结,这这之前请先学一下xpath语法。

引入using HtmlAgilityPack;和dll

一:装载页面

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.GetEncoding("gb2312");
HtmlDocument doc = web.Load(@地址);

二:寻找节点

 HtmlNodeCollection listnode = doc.DocumentNode.SelectNodes("//table[@class='hbdtinfo1']/tr");这个参数是xpath

这里的是个node集合,你可以遍历它去出里面的node,并且每个node还有好多方法取到它下面的任一个node任何属性值

三:没有了,大功告成,简单吧,提醒一句图片是抓不到的

qq群:257020224

posted @ 2013-05-09 16:07  树形图  阅读(520)  评论(0编辑  收藏  举报