2014 年 10月 2 日随笔档案 - DianaCody

摘要： scrapy框架的学习，目前个人觉得比较详尽的资料主要有两个： 1.官方教程文档、scrapy的github wiki； 2.一个很好的scrapy中文文档：http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html； ... 阅读全文

posted @ 2014-10-02 23:37 DianaCody 阅读(320) 评论(0) 推荐(0) 编辑

摘要：一、关于抓包分析和debug Log信息模拟登录访问需要设置request header信息，对于这个没有概念的朋友可以参见本系列前面的java版爬虫中提到的模拟登录过程，主要就是添加请求头request header。而python抓包可以直接使用urlli... 阅读全文

posted @ 2014-10-02 23:16 DianaCody 阅读(495) 评论(0) 推荐(0) 编辑

摘要：对于urllib2的学习，这里先推荐一个教程《IronPython In Action》，上面有很多简明例子，并且也有很详尽的原理解释：http://www.voidspace.org.uk/python/articles/urllib2.shtml 最基本的爬虫... 阅读全文

posted @ 2014-10-02 23:03 DianaCody 阅读(503) 评论(0) 推荐(0) 编辑

摘要： python爬虫的实现方式： 1.简单点的urllib2 + regex，足够了，可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多，把网页拉回来，再正则regex解析信息……总结起来，两个函数：urllibw.urlopen()和re.compi... 阅读全文

posted @ 2014-10-02 00:23 DianaCody 阅读(345) 评论(0) 推荐(0) 编辑

DianaCody's Blog