上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档、scrapy的github wiki; 2.一个很好的scrapy中文文档:http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html; ... 阅读全文
posted @ 2014-10-02 23:37 DianaCody 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 一、关于抓包分析和debug Log信息 模拟登录访问需要设置request header信息,对于这个没有概念的朋友可以参见本系列前面的java版爬虫中提到的模拟登录过程,主要就是添加请求头request header。 而python抓包可以直接使用urlli... 阅读全文
posted @ 2014-10-02 23:16 DianaCody 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 对于urllib2的学习,这里先推荐一个教程《IronPython In Action》,上面有很多简明例子,并且也有很详尽的原理解释:http://www.voidspace.org.uk/python/articles/urllib2.shtml 最基本的爬虫... 阅读全文
posted @ 2014-10-02 23:03 DianaCody 阅读(496) 评论(0) 推荐(0) 编辑
摘要: python爬虫的实现方式: 1.简单点的urllib2 + regex,足够了,可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多,把网页拉回来,再正则regex解析信息……总结起来,两个函数:urllibw.urlopen()和re.compi... 阅读全文
posted @ 2014-10-02 00:23 DianaCody 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 爬虫的目的就是大规模地、长时间地获取数据,跟我们正常浏览器获取数据相比,虽然机理相差不大,但总是一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝。关于爬虫长时间爬取数据,可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。 技巧一:设置下载... 阅读全文
posted @ 2014-10-01 12:53 DianaCody 阅读(1790) 评论(0) 推荐(0) 编辑
摘要: 之前提到过,对于简单的网页结构解析,可以直接通过观察法、手工写正则解析,可以做出来,比如网易微博。但是对于结构稍微复杂点的,比如新浪微博,如果还用正则,用眼睛一个个去找,未免太麻烦了。 本文介绍两个工具包:解析html, xml的jsoup,和读写xml的dom4... 阅读全文
posted @ 2014-10-01 08:53 DianaCody 阅读(1781) 评论(0) 推荐(0) 编辑
摘要: 在上一篇文章中已经通过请求的url地址把html页面爬取下来了,这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。 一、网易微博解析 相比新浪微博的html结构,网易微博的比较容易明显地看出来,也容易找到微博数据。查看其html结构不... 阅读全文
posted @ 2014-10-01 08:49 DianaCody 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 一、写在前面 上篇文章以网易微博爬虫为例,给出了一个很简单的微博爬虫的爬取过程,大概说明了网络爬虫其实也就这么回事,或许初次看到这个例子觉得有些复杂,不过没有关系,上篇文章给的例子只是让大家对爬虫过程有所了解。接下来的系列里,将一步一步地剖析每个过程。 爬虫总体流... 阅读全文
posted @ 2014-09-30 14:11 DianaCody 阅读(1272) 评论(0) 推荐(0) 编辑
摘要: 今年的软件自由日(SFD),我在广州Linux用户组的线下活动上做了一个分享,主题叫做《做一名开源社区的扫地僧(上)》。我把演讲的内容重新整理扩充, 写出了文字版, 希望可以跟更多朋友分享。 金庸笔下有一个传奇人物,人称扫地僧,身世隐秘,武功绝顶。小说中的扫地... 阅读全文
posted @ 2014-09-30 00:09 DianaCody 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 喜欢写Blog的人,会经历三个阶段。 第一阶段,刚接触Blog,觉得很新鲜,试着选择一个免费空间来写。 第二阶段,发现免费空间限制太多,就自己购买域名和空间,搭建独立博客。 第三阶段,觉得独立博客的管理太麻烦,最好在保留控制权的前提下,让别人来管,自己只负责写文章。 大多数B... 阅读全文
posted @ 2014-09-29 23:21 DianaCody 阅读(200) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页