2014 年 10月 1 日随笔档案 - DianaCody

摘要：爬虫的目的就是大规模地、长时间地获取数据，跟我们正常浏览器获取数据相比，虽然机理相差不大，但总是一个IP去爬网站，大规模集中对服务器访问，时间一长就有可能被拒绝。关于爬虫长时间爬取数据，可能会要求验证码，即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。技巧一：设置下载... 阅读全文

posted @ 2014-10-01 12:53 DianaCody 阅读(1797) 评论(0) 推荐(0) 编辑

摘要：之前提到过，对于简单的网页结构解析，可以直接通过观察法、手工写正则解析，可以做出来，比如网易微博。但是对于结构稍微复杂点的，比如新浪微博，如果还用正则，用眼睛一个个去找，未免太麻烦了。本文介绍两个工具包：解析html, xml的jsoup，和读写xml的dom4... 阅读全文

posted @ 2014-10-01 08:53 DianaCody 阅读(1781) 评论(0) 推荐(0) 编辑

摘要：在上一篇文章中已经通过请求的url地址把html页面爬取下来了，这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。一、网易微博解析相比新浪微博的html结构，网易微博的比较容易明显地看出来，也容易找到微博数据。查看其html结构不... 阅读全文

posted @ 2014-10-01 08:49 DianaCody 阅读(408) 评论(0) 推荐(0) 编辑

DianaCody's Blog