摘要: 转自http://blog.csdn.net/u012150179/article/details/35774323话说在尝试设置download_delay小于1,并且无任何其他防止被ban的策略之后,我终于成功的被ban了。关于scrapy的使用可参见之前文章:http://blog.csdn.... 阅读全文
posted @ 2015-10-17 16:37 fukan 阅读(249) 评论(0) 推荐(1) 编辑
摘要: 转自http://blog.csdn.net/u012150179/article/details/34913315一.目的。在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3csch... 阅读全文
posted @ 2015-10-17 16:20 fukan 阅读(1567) 评论(0) 推荐(0) 编辑
摘要: 小工具:关于网页代码中意向信息的查找可以借助几个工具:第一个——Firefox插件Firebug。第二个——Firefox插件XPath。可以快速的在网页中对xpath表达式的正确性进行验证。第三个——scrapy shell.关于其使用可以查看教程。 阅读全文
posted @ 2015-10-17 16:18 fukan 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 转自http://blog.csdn.net/u012150179/article/details/34441655学习曲线总是这样,简单例子“浅尝”,在从理论+实践慢慢攻破。理论永远是基础,切记“勿在浮沙筑高台”。一. 核心架构关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.... 阅读全文
posted @ 2015-10-17 11:21 fukan 阅读(722) 评论(0) 推荐(0) 编辑
摘要: 用scrapy抓取的豆瓣的图书信息保存为csv文件用excel打开后显示乱码后来按照百度的解决csv乱码问题解决了方法是:1、先选择记事本为该csv文件的打开方式2、然后另存为编码格式为ansi的csv文件再用Excel打开就不是乱码了。爬下来的文件本来是UTF-8编码的中途尝试过保存为unicod... 阅读全文
posted @ 2015-10-17 09:41 fukan 阅读(244) 评论(0) 推荐(0) 编辑