网络爬虫速成指南(二)网页解析(基于模板)
摘要:
网页解析技术:1 xpath教程2 正则表达式教程xpath是将html加载为DOM树解析,简单,易维护。通常我用正则作为辅助抽取,用xpath定位后,再从定位的数据中用正则抽取。xpath的类库:.net 方向主要用到HtmlAgilityPackjava 方向主要用到HtmlCleaner(得翻... 阅读全文
posted @ 2013-08-15 10:58 雨渐渐 阅读(731) 评论(0) 推荐(0) 编辑