2018 年 12月 31 日随笔档案 - bitterz

2018年12月31日

摘要： [TOC] ——参考博客 https://www.zhuyingda.com/blog/article.html?id=17 机器人协议爬虫领域有一个“白道手段”——robots协议，这是一个君子协议，即用allow和disallow声明各个页面的爬取授权，但除了商业搜索引擎的爬虫程序，野生爬虫根阅读全文

posted @ 2018-12-31 15:31 bitterz 阅读(907) 评论(0) 推荐(0) 编辑

爬虫2.5-scrapy框架-下载中间件

摘要： scrapy框架下载中间件 middlewares.py中有两个类，一个是xxSpiderMiddleware类一个是xxDownloaderMiddleware类，xx代表项目名，本次笔记主要记录DownloaderMiddleware类的一些知识点 [TOC] 1. process_requ 阅读全文

posted @ 2018-12-31 15:29 bitterz 阅读(284) 评论(0) 推荐(0) 编辑

爬虫2.4-scrapy框架-图片分类下载

摘要： scrapy框架图片下载 [TOC] python小知识： map函数：将一个可迭代对象的每个值，依次交给一个函数处理，返回一个生成器。 urls本身是一个列表，使用map函数，将urls中的每一项传递给url ，并让url执行‘https:’+url的操作。 lambda则是一个无名函数，方便一阅读全文

posted @ 2018-12-31 15:26 bitterz 阅读(603) 评论(0) 推荐(0) 编辑

爬虫2.3-scrapy框架-post、shell、验证码

摘要： scrapy框架 post请求和shell [TOC] 1. post请求 scrapy框架在开始时，会直接调用start_requests(self) 函数，所以需要重写start_requests方法，并且不调用start_urls里面的url，之后再使用回调函数进入真正的数据解析函数 2. s 阅读全文

posted @ 2018-12-31 15:16 bitterz 阅读(434) 评论(0) 推荐(0) 编辑

爬虫2.2-scrapy框架-文件写入

摘要： scrapy框架文件写入 [TOC] 1. lowb写法当整个项目开始时，会执行\__init__ 和open_spider函数，所以先将文件打开，方便写入。项目结束时运行close_spider函数，在这个地方关闭文件。每次spider将数据抛出，由process_spider函数进行处理阅读全文

posted @ 2018-12-31 14:54 bitterz 阅读(1690) 评论(0) 推荐(1) 编辑

爬虫2.1-scrapy框架-两种爬虫对比

摘要： scrapy框架两种爬虫对比和大概流程注：spider.py指使用命令行创建的爬虫主文件 [TOC] 1. 传统spider爬虫创建scrapy项目，首先进入想创建项目的目录，然后cmd输入： spidername就是爬虫文件名 xxxx.com 用于限定爬虫爬取的范围爬虫名，其与项目名不能相阅读全文

posted @ 2018-12-31 14:51 bitterz 阅读(929) 评论(0) 推荐(0) 编辑

bitterz

https://github.com/bitterzzZZ

公告