2018 年 6月 3 日随笔档案 - 猴子吃果冻

2018年6月3日

摘要：下载中间键的设置可以分为两步：以设置代理和user-agent为例第一步：编写中间件文件，代码如下：上述图片中的USER_AGENT_LIST可以卸载中间键（middlewares.py）中,也可以写在settings.py中，如下图：第二步：在settings.py文件中启用中间键阅读全文

posted @ 2018-06-03 19:02 猴子吃果冻阅读(192) 评论(0) 推荐(0) 编辑

02-scrapy的cmdline命令

摘要： 1.启动爬虫的命令为： scrapy crawl spidername(爬虫名) 2.我们还可以通过下述方式来启动爬虫步骤一：创建一个.py文件。startspider.py(这里文件的名称可以自己给定）步骤二：通过python startspider.py来运行此文件即可阅读全文

posted @ 2018-06-03 17:33 猴子吃果冻阅读(5696) 评论(0) 推荐(1) 编辑

scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）

摘要： scrapy项目3中已经对网页规律作出解析，这里用crawlspider类对其内容进行爬取；项目结构与项目3中相同如下图，唯一不同的为book.py文件 crawlspider类的爬虫文件book的生成命令为：scrapy genspider -t crawl book 'category.dan 阅读全文

posted @ 2018-06-03 15:46 猴子吃果冻阅读(348) 评论(0) 推荐(0) 编辑

scrapy项目3：爬取当当网中机器学习的数据及价格（spider类）

摘要： 1.网页解析当当网中，人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html 点击下方的链接，一次观察各个页面的url变化，发现每一页的url规律如下：在进行页面切换时除第一页外，其他页面的url变化规律为只有pg后阅读全文

posted @ 2018-06-03 15:27 猴子吃果冻阅读(320) 评论(0) 推荐(0) 编辑

猴子吃果冻

公告