2013年8月15日

网络爬虫速成指南(二)网页解析(基于模板)

摘要: 网页解析技术:1 xpath教程2 正则表达式教程xpath是将html加载为DOM树解析,简单,易维护。通常我用正则作为辅助抽取,用xpath定位后,再从定位的数据中用正则抽取。xpath的类库:.net 方向主要用到HtmlAgilityPackjava 方向主要用到HtmlCleaner(得翻... 阅读全文

posted @ 2013-08-15 10:58 雨渐渐 阅读(731) 评论(0) 推荐(0) 编辑

网络爬虫速成指南(一)网页下载

摘要: 注解:此处仅仅是介绍一些类库及常规使用,如果要详细了解Http协议推荐看下《Http权威指南》。net 方向 主要是用到HttpWebRequest下载内容:JAVA方向:主要是用到HttpClient下载内容示例代码:相关类库(httpclient-4.1.2 httpcore-4.1.4)示例代... 阅读全文

posted @ 2013-08-15 10:25 雨渐渐 阅读(643) 评论(0) 推荐(0) 编辑

导航