摘要: Django框架下MySQLdb模块在python3中无法使用的问题的解决方案 由于python3环境下目前还没有官方的mysqldb模块,Django框架中又强制要求使用mysqldb,为了解决这个问题,可以按照以下方法: 原文链接:http://www.cnblogs.com/xwang/p/3 阅读全文
posted @ 2017-05-10 22:39 zhangjpn 阅读(2970) 评论(0) 推荐(0) 编辑
摘要: 爬虫常用资源链接: XPath 教程 http://www.w3school.com.cn/xpath/index.asp Scrapy : http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html https://doc.scra 阅读全文
posted @ 2017-05-10 22:26 zhangjpn 阅读(1679) 评论(0) 推荐(0) 编辑
摘要: 首先要明确的是,其实所有的FeedExporter都是类,里面封装了一般进行io操作的方法。因此,要怎么输出呢?其实从技术实现来说,在生成item的每一步调用其进行储存都是可以的,只不过为了更加符合scrapy的架构,一般都是在Pipeline中使用FeedExporter的。 每一个Exporte 阅读全文
posted @ 2017-05-10 22:01 zhangjpn 阅读(1319) 评论(0) 推荐(1) 编辑
摘要: scrapy框架使用代理ip的基本思路是修改请求对象中的meta['proxy']的值,将代理ip赋值给这个属性。遵循这个思路,只要是生成Request对象的地方都可以设置Request的值。 downloader中间件 spider中间件 spider内部对象定义的内部parse函数和parse_ 阅读全文
posted @ 2017-05-10 21:45 zhangjpn 阅读(448) 评论(0) 推荐(0) 编辑