htmlAgilitypack抓取页面总结
近两天一直在搞页面抓取,先开始是想从正则式下手,然后轻而易举的写了个抓取总页数的正则,并且成功抓到,后来抓取table里的数据真发愁了,因为table里的数据有图片属性,有td值,很不好抓,幸好找了个好插件htmlAgilitypack转换xml,废话不多说,开始总结,这这之前请先学一下xpath语法。
引入using HtmlAgilityPack;和dll
一:装载页面
HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.GetEncoding("gb2312");
HtmlDocument doc = web.Load(@地址);
二:寻找节点
HtmlNodeCollection listnode = doc.DocumentNode.SelectNodes("//table[@class='hbdtinfo1']/tr");这个参数是xpath
这里的是个node集合,你可以遍历它去出里面的node,并且每个node还有好多方法取到它下面的任一个node任何属性值
三:没有了,大功告成,简单吧,提醒一句图片是抓不到的
qq群:257020224