05 2019 档案
摘要:内存 计算机的作用 对数据进行存储和运算。首先我们需要知道我们目前使用的计算机都是二进制的计算机,就以为着计算机只可以存储和运算二进制的数据。例如下载好的一部电影,该电影可以存储到计算机中,计算机中存储的是基于二进制的电影数据,然后我们可以通过相关的视频播放软件结合相关的硬件对电影的二进制数据进行相
阅读全文
摘要:首页代码index.html <!doctype html> <html lang="en"> <head> <meta charset="UTF-8" /> <title>Document</title> <meta name="viewport" content="width=device-wi
阅读全文
摘要:csrf :django中的跨站请求伪造的保护机制 跨站请求伪造保护机制原理 """ Cross Site Request Forgery Middleware. This module provides a middleware that implements protection against
阅读全文
摘要:什么是中间件 官方的说法:中间件是一个用来处理Django的请求和响应的框架级别的钩子。它是一个轻量、低级别的插件系统,用于在全局范围内改变Django的输入和输出。每个中间件组件都负责做一些特定的功能。但是由于其影响的是全局,所以需要谨慎使用,使用不当会影响性能。说的直白一点中间件是帮助我们在视图
阅读全文
摘要:导入包 对月份及所在政党进行定义 读取数据 字段解释 创建一个各个候选人所在的党派party party这一列中有哪些元素 统计party列中各个元素出现次数,value_counts()是Series中的,无参,返回一个带有每个元素出现次数的Series 查看各个党派收到的政治献金总数contb_
阅读全文
摘要:Matplotlib基础知识 Matplotlib中的基本图表包括的元素 x轴和y轴 axis水平和垂直的轴线 x轴和y轴刻度 tick刻度标示坐标轴的分隔,包括最小刻度和最大刻度 x轴和y轴刻度标签 tick label表示特定坐标轴的值 绘图区域(坐标系) axes实际绘图的区域 坐标系标题 t
阅读全文
摘要:删除重复数据 使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True 创建具有重复元素行的dataframe数据 使用duplicated查看所有重复元素行 使用drop去除重复数据 使用drop_duplica
阅读全文
摘要:redis分布式部署 scrapy框架是否可以自己实现分布式? 基于scrapy-redis组件的分布式爬虫 scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直接使用并实现分布式数据爬取。 搭建流程 实现方式: 分布式实现流程:上述两种不同方式的分布式实现流程是
阅读全文
摘要:简介: CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的
阅读全文
摘要:scrapy下载中间件 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件 作用: (1):引擎将请求传递给下载器过程中,下载中间件可以对请求进行一系列处理,比如设置请求的User-Agent,设置代理等 (2):在下载器完成将Response传递
阅读全文
摘要:Scrapy的日志等级 请求传参 - 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。 - 案例展示:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二
阅读全文
摘要:实现方案:使用Request方法手动发起请求。 示例一 实例二 post请求 重写start_requests方法,让其发起post请求
阅读全文
摘要:持续化流程 爬取糗事百科首页中的段子和作者的数据爬取下来,进行持久化存储 爬虫文件:qiushibaike.py items文件: items.py 管道文件: pipelines.py 配置文件:settings.py 基于mysql的管道存储 将item数据写入mysql数据库 pipeline
阅读全文
摘要:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板 scrapy安装 Linux安装: Windows安装: 基础使用: 创建项目: 项目结构: 创建
阅读全文
摘要:线程池(适当使用) 单线程+异步协程(推荐) event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。程序是按照设定的顺序从头执行到尾,运行的次数也是完全按照设定。当在编写异步程序时,必然其中有部分程序的运行耗时是比较久的
阅读全文
摘要:selenium 谷歌浏览器驱动下载 查看驱动和浏览器版本映射关系 访问百度 滑动 PhantomJs 谷歌无头浏览器 前进和后退 动作链一 动作链二
阅读全文
摘要:代理:代理服务器 cookie的应用和处理 如何提升requests模块爬取数据的效率 多进程或者多线程(不建议) 线程池或者进程池(适当使用) 单线程+异步协程(推荐) 云打码平台注册和使用 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码
阅读全文