htmlAgilitypack抓取页面总结

近两天一直在搞页面抓取，先开始是想从正则式下手，然后轻而易举的写了个抓取总页数的正则，并且成功抓到，后来抓取table里的数据真发愁了，因为table里的数据有图片属性，有td值，很不好抓，幸好找了个好插件htmlAgilitypack转换xml，废话不多说，开始总结，这这之前请先学一下xpath语法。

引入using HtmlAgilityPack;和dll

一：装载页面

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.GetEncoding("gb2312");
HtmlDocument doc = web.Load(@地址);

二：寻找节点

HtmlNodeCollection listnode = doc.DocumentNode.SelectNodes("//table[@class='hbdtinfo1']/tr");这个参数是xpath

这里的是个node集合，你可以遍历它去出里面的node，并且每个node还有好多方法取到它下面的任一个node任何属性值

三：没有了，大功告成，简单吧，提醒一句图片是抓不到的

qq群:257020224

posted @ 2013-05-09 16:07 树形图阅读(535) 评论(0) 收藏举报

刷新页面返回顶部

weiwin124

永不止步——————————————————————

htmlAgilitypack抓取页面总结

公告