DianaCody - 博客园

摘要： scrapy框架的学习，目前个人觉得比较详尽的资料主要有两个： 1.官方教程文档、scrapy的github wiki； 2.一个很好的scrapy中文文档：http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html； ... 阅读全文

posted @ 2014-10-02 23:37 DianaCody 阅读(316) 评论(0) 推荐(0) 编辑

摘要：一、关于抓包分析和debug Log信息模拟登录访问需要设置request header信息，对于这个没有概念的朋友可以参见本系列前面的java版爬虫中提到的模拟登录过程，主要就是添加请求头request header。而python抓包可以直接使用urlli... 阅读全文

posted @ 2014-10-02 23:16 DianaCody 阅读(493) 评论(0) 推荐(0) 编辑

摘要：对于urllib2的学习，这里先推荐一个教程《IronPython In Action》，上面有很多简明例子，并且也有很详尽的原理解释：http://www.voidspace.org.uk/python/articles/urllib2.shtml 最基本的爬虫... 阅读全文

posted @ 2014-10-02 23:03 DianaCody 阅读(496) 评论(0) 推荐(0) 编辑

摘要： python爬虫的实现方式： 1.简单点的urllib2 + regex，足够了，可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多，把网页拉回来，再正则regex解析信息……总结起来，两个函数：urllibw.urlopen()和re.compi... 阅读全文

posted @ 2014-10-02 00:23 DianaCody 阅读(345) 评论(0) 推荐(0) 编辑

摘要：爬虫的目的就是大规模地、长时间地获取数据，跟我们正常浏览器获取数据相比，虽然机理相差不大，但总是一个IP去爬网站，大规模集中对服务器访问，时间一长就有可能被拒绝。关于爬虫长时间爬取数据，可能会要求验证码，即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。技巧一：设置下载... 阅读全文

posted @ 2014-10-01 12:53 DianaCody 阅读(1790) 评论(0) 推荐(0) 编辑

摘要：之前提到过，对于简单的网页结构解析，可以直接通过观察法、手工写正则解析，可以做出来，比如网易微博。但是对于结构稍微复杂点的，比如新浪微博，如果还用正则，用眼睛一个个去找，未免太麻烦了。本文介绍两个工具包：解析html, xml的jsoup，和读写xml的dom4... 阅读全文

posted @ 2014-10-01 08:53 DianaCody 阅读(1781) 评论(0) 推荐(0) 编辑

摘要：在上一篇文章中已经通过请求的url地址把html页面爬取下来了，这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。一、网易微博解析相比新浪微博的html结构，网易微博的比较容易明显地看出来，也容易找到微博数据。查看其html结构不... 阅读全文

posted @ 2014-10-01 08:49 DianaCody 阅读(403) 评论(0) 推荐(0) 编辑

摘要：一、写在前面上篇文章以网易微博爬虫为例，给出了一个很简单的微博爬虫的爬取过程，大概说明了网络爬虫其实也就这么回事，或许初次看到这个例子觉得有些复杂，不过没有关系，上篇文章给的例子只是让大家对爬虫过程有所了解。接下来的系列里，将一步一步地剖析每个过程。爬虫总体流... 阅读全文

posted @ 2014-09-30 14:11 DianaCody 阅读(1272) 评论(0) 推荐(0) 编辑

摘要：今年的软件自由日(SFD)，我在广州Linux用户组的线下活动上做了一个分享，主题叫做《做一名开源社区的扫地僧(上)》。我把演讲的内容重新整理扩充, 写出了文字版, 希望可以跟更多朋友分享。金庸笔下有一个传奇人物，人称扫地僧，身世隐秘，武功绝顶。小说中的扫地... 阅读全文

posted @ 2014-09-30 00:09 DianaCody 阅读(382) 评论(0) 推荐(0) 编辑

摘要：喜欢写Blog的人，会经历三个阶段。第一阶段，刚接触Blog，觉得很新鲜，试着选择一个免费空间来写。第二阶段，发现免费空间限制太多，就自己购买域名和空间，搭建独立博客。第三阶段，觉得独立博客的管理太麻烦，最好在保留控制权的前提下，让别人来管，自己只负责写文章。大多数B... 阅读全文

posted @ 2014-09-29 23:21 DianaCody 阅读(200) 评论(0) 推荐(0) 编辑

DianaCody's Blog