摘要: 下载中间键的设置可以分为两步:以设置代理和user-agent为例 第一步:编写中间件文件,代码如下: 上述图片中的USER_AGENT_LIST可以卸载中间键(middlewares.py)中,也可以写在settings.py中,如下图: 第二步:在settings.py文件中启用中间键 阅读全文
posted @ 2018-06-03 19:02 猴子吃果冻 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 1.启动爬虫的命令为: scrapy crawl spidername(爬虫名) 2.我们还可以通过下述方式来启动爬虫 步骤一:创建一个.py文件。startspider.py(这里文件的名称可以自己给定) 步骤二:通过python startspider.py来运行此文件即可 阅读全文
posted @ 2018-06-03 17:33 猴子吃果冻 阅读(5696) 评论(0) 推荐(1) 编辑
摘要: scrapy项目3中已经对网页规律作出解析,这里用crawlspider类对其内容进行爬取; 项目结构与项目3中相同如下图,唯一不同的为book.py文件 crawlspider类的爬虫文件book的生成命令为:scrapy genspider -t crawl book 'category.dan 阅读全文
posted @ 2018-06-03 15:46 猴子吃果冻 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 1.网页解析 当当网中,人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html 点击下方的链接,一次观察各个页面的url变化,发现每一页的url规律如下:在进行页面切换时除第一页外,其他页面的url变化规律为只有pg后 阅读全文
posted @ 2018-06-03 15:27 猴子吃果冻 阅读(320) 评论(0) 推荐(0) 编辑