摘要: scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档、scrapy的github wiki; 2.一个很好的scrapy中文文档:http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html; ... 阅读全文
posted @ 2014-10-02 23:37 DianaCody 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 一、关于抓包分析和debug Log信息 模拟登录访问需要设置request header信息,对于这个没有概念的朋友可以参见本系列前面的java版爬虫中提到的模拟登录过程,主要就是添加请求头request header。 而python抓包可以直接使用urlli... 阅读全文
posted @ 2014-10-02 23:16 DianaCody 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 对于urllib2的学习,这里先推荐一个教程《IronPython In Action》,上面有很多简明例子,并且也有很详尽的原理解释:http://www.voidspace.org.uk/python/articles/urllib2.shtml 最基本的爬虫... 阅读全文
posted @ 2014-10-02 23:03 DianaCody 阅读(495) 评论(0) 推荐(0) 编辑
摘要: python爬虫的实现方式: 1.简单点的urllib2 + regex,足够了,可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多,把网页拉回来,再正则regex解析信息……总结起来,两个函数:urllibw.urlopen()和re.compi... 阅读全文
posted @ 2014-10-02 00:23 DianaCody 阅读(345) 评论(0) 推荐(0) 编辑