摘要: os.makedirs('dirname1/dirname2') 可生成多层递归目录 os.removedirs('dirname1') 若目录为空,则删除,并递归到上一级目录,如若也为空,则删除,依此类推 os.mkdir('dirname') 生成单级目录;相当于shell中mkdir dirn 阅读全文
posted @ 2019-10-09 12:21 Sroxi 阅读(96) 评论(0) 推荐(0)
摘要: 一、下载中间件 下载中间件是scrapy提供用于用于在爬虫过程中可修改Request和Response,用于扩展scrapy的功能;比如: 1. 可以在请求被Download之前,请求头部加上某些信息(例如:user agent,proxy); 2. 完成请求之后,回包需要解压等处理;(seleni 阅读全文
posted @ 2019-10-09 11:01 Sroxi 阅读(362) 评论(0) 推荐(0)
摘要: 当使用scrapy爬取的数据不在同一张页面中(一次请求与数据后解析无法获得想要的全部数据),需要请求传参,在第一次解析时实例化item,将item传递,再次将请求到的数据解析后,封装在item中。 关键点 例如在豆瓣中,电影封面页获取电影名称,在详情页获取电影简介: ​ 先从起始网页解析出电影名称和 阅读全文
posted @ 2019-10-08 19:50 Sroxi 阅读(302) 评论(0) 推荐(0)
摘要: scrapy简介 ​ Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 scrapy的执行流程 Scrapy主要包括了以下组件: 引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器( 阅读全文
posted @ 2019-10-08 17:51 Sroxi 阅读(462) 评论(0) 推荐(0)
摘要: 一、设置与编写 打开cmd,选择好路径 1.创建项目 2.生成模板 d:\爬虫\11.scrapy\testproject python coding: utf 8 import scrapy class TestspiderSpider(scrapy.Spider): name = 'testsp 阅读全文
posted @ 2019-10-08 09:40 Sroxi 阅读(188) 评论(0) 推荐(0)
摘要: 一、简介 selenium自动化测试工具,爬虫中主要解决浏览器渲染的问题,过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果。 二、安装 模块安装:pip install selenium chrome浏览器驱动下载 http://chromedriver.s 阅读全文
posted @ 2019-10-07 21:25 Sroxi 阅读(214) 评论(0) 推荐(0)
摘要: 要点: 1.resquests模块不支持异步,在需要异步的地方使用aiohttp模块进行替换 2.定义一个 协程函数 ,创建协程任务,将 协程 打包为一个 Task 排入日程准备执行。返回 Task 对象 ​ 获取当前事件循环,开启循环 ​ async def func(arge): ​ task 阅读全文
posted @ 2019-10-07 21:18 Sroxi 阅读(145) 评论(0) 推荐(0)
摘要: 多线程下载 梨视频下载为例 要点: 1.获取所有视频的url,定义下载函数getdata 2.将下载数据保存到列表,定义数据保存函数savefunc 3.from multiprocessing.dummy import Pool ​ pool = Pool(4) ​ pool.get(getdat 阅读全文
posted @ 2019-10-05 21:45 Sroxi 阅读(213) 评论(0) 推荐(0)
摘要: 1.数据透视 所在选项卡:插入—数据透视表 例如:查看下表中各个工龄的平均工资 数据透视:选择所有数据——数据透视表——数据透视字段:选择工作经验和salary 切片器的使用,根据工作经验进行切片(还可插入图表) 2.分列 所在选项卡:数据—分列 数据—分列—勾选分隔符号—其他中输入分割字段,如下图 阅读全文
posted @ 2019-10-02 10:02 Sroxi 阅读(172) 评论(0) 推荐(0)
摘要: 1. year 返回对应于某个日期的年份。 2. month 返回对应于某个日期的月份。 3. day 返回对应于某个日期的年份。 4. weekday 返回对应于某个日期的天数。 5. weeknum 返回对应日期在本年中是第几周 6. now 返回当前时间,例如:2019/10/1 16:20 阅读全文
posted @ 2019-10-01 16:42 Sroxi 阅读(684) 评论(0) 推荐(0)