python爬虫实战（二）--------千图网高清图

相关代码已经修改调试----2017-3-21

实现：千图网上高清图片的爬取

程序运行20小时，爬取大约162000张图片，一共49G,存入百度云。链接：http://pan.baidu.com/s/1hsolxNe 密码：y0ut

笔记

 1.分析网站
 2.选择爬取方式与策略
 3.创建爬虫项目 → 定义items.py
 4.编写爬虫文件
 5.编写pipelines与setting
 6.调试

 1.要爬取全站的图片
 2.要爬取高清的图片------找出高清地址即可
 3.要有相应的反爬虫机制------如模拟浏览器，不记录cookie等，只要相应注释去掉即可COOKIES_ENABLED = False

1.from scrapy.http import Request 是回调函数用Request(url=...,callback=...)
2.xpath的//表示提取所有符合的节点

如果对此项目感兴趣请移步我的github：https://github.com/pujinxiao/qiantuwang

作者：今孝
出处：http://www.cnblogs.com/jinxiao-pu/p/6660062.html
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

posted @ 2017-04-02 22:57 今孝阅读(4786) 评论(1) 编辑收藏举报

刷新页面返回顶部