摘要: 前言: 本文基于j2ee的原始url进行都写,解析指定内容时也是使用很傻的形式去查找指定格式的字符串来实现的。 更优雅的方式是可以使用apache的HttpClient和某些文档模型将HTML字符串构建成doc来进行解析。 目前已经修改代码适配最新的2015年的抓取。 爬取的原因:统计局网站提供的页 阅读全文
posted @ 2014-01-23 09:50 自行车上的程序员 阅读(7628) 评论(12) 推荐(1) 编辑