摘要: 爬虫的目的就是大规模地、长时间地获取数据,跟我们正常浏览器获取数据相比,虽然机理相差不大,但总是一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝。关于爬虫长时间爬取数据,可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。 技巧一:设置下载... 阅读全文
posted @ 2014-10-01 12:53 DianaCody 阅读(1785) 评论(0) 推荐(0) 编辑
摘要: 之前提到过,对于简单的网页结构解析,可以直接通过观察法、手工写正则解析,可以做出来,比如网易微博。但是对于结构稍微复杂点的,比如新浪微博,如果还用正则,用眼睛一个个去找,未免太麻烦了。 本文介绍两个工具包:解析html, xml的jsoup,和读写xml的dom4... 阅读全文
posted @ 2014-10-01 08:53 DianaCody 阅读(1777) 评论(0) 推荐(0) 编辑
摘要: 在上一篇文章中已经通过请求的url地址把html页面爬取下来了,这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。 一、网易微博解析 相比新浪微博的html结构,网易微博的比较容易明显地看出来,也容易找到微博数据。查看其html结构不... 阅读全文
posted @ 2014-10-01 08:49 DianaCody 阅读(400) 评论(0) 推荐(0) 编辑