摘要:
pyplot的一些知识 matplotlab中的对象: matplotlib是面向对象的,在画图的时候我们了解一些对象,对我们画图是有帮助的。绘图的对象大致分为三层: backend_bases.FigureCanvas : 图表的绘制领域 backend_bases.Renderer : 知道如何 阅读全文
摘要:
缺失值的类型 首先对数据的变量(特征)按照缺失和不缺失进行分类:不含有缺失值的变量称为完全变量,含有缺失值的变量称为非完全变量。 缺失值的类型分为三种:完全随机缺失,随机缺失和非随机缺失。 完全随机缺失: 缺失的变量和其余的变量没有关系。比如”家庭住址“这个信息,和”身高“等其余的变量没有关系。 随 阅读全文
摘要:
数据的标准化(Standardization)和归一化(Normalization)有什么区别? 关于数据的标准化和归一化区别的说法有点乱。总的来说有这么几种分法 1:不做区分,都意味着标准化。 2:大部分说法是这样的:归一化是这么一个过程$x’ = \frac{x-x_{min}}{x_{max} 阅读全文
摘要:
按照我们对于变量的分类:分为数值变量和分类变量,数值变量可以分为连续型和离散型,分类变量又有有序的和无序的。下面我将介绍一些对于这些变量进行离散化处理。 无序分类变量的离散化方法: 比如在泰坦尼克号当中,有一个变量叫做乘客登陆的港口,取值为(C, Q, S)代表三个地方。这是一个典型的无序分类变量, 阅读全文
摘要:
集成学习 Ensemble learning 中文名叫做集成学习,它并不是一个单独的机器学习算法,而是将很多的机器学习算法结合在一起,我们把组成集成学习的算法叫做“个体学习器”。在集成学习器当中,个体学习器都相同,那么这些个体学习器可以叫做“基学习器”。 个体学习器组合在一起形成的集成学习,常常能够 阅读全文
摘要:
模型评估方法 假如我们有一个带标签的数据集D,我们如何选择最优的模型? 衡量模型好坏的标准是看这个模型在新的数据集上面表现的如何,也就是看它的泛化误差。因为实际的数据没有标签,所以泛化误差是不可能直接得到的。于是我们需要在数据集D上面划分出来一小部分数据测试D的性能,用它来近似代替泛化误差。 有三种 阅读全文
摘要:
最本质的区别是这样的:histogram用来描述的是numerical变量,而bar plot用来描述的是categorical类型的变量。统计学当中关于变量的分类 这可以从它们的图形上面看到: histogram的横轴用bin把变量分在一个特定的区间里面,比如年龄变量,以五岁一个长度分开,那么一个 阅读全文
摘要:
统计学中的变量指的是研究对象的特征,我们有时也称为属性,例如人的身高、性别等。 每个变量都有变量的值和变量的类型。我们按照变量的类型对变量进行划分。 统计学中的变量(variables)大致可以分为数值变量(numrical)和分类变量(categorical)。 数值型变量是值可以取一些列的数,这 阅读全文
摘要:
为什么接头要分为“公头”和"母头"?有何由来 在接口当中有工头和母头 公头是插头当中有插针的那一端 母头是插头当中有插槽的那一端 VGA 两端母头,接线公头 有的接口连接的时候,连接的两个部分提供两个母头,中间用一个两端是公头的线连接起来,比如pc和显示器的vga接口都是母头,中间的连接线两端是公头 阅读全文
摘要:
一块硬盘,从它最开始的什么都没有的状态,到被我们利用,要经历分区、格式化和挂载。 分区:分区是把一个硬盘分成几个逻辑分区。这其中的概念有:主分区,扩展分区,逻辑分区。将一个/dev/sda硬盘分区以后,可能会出现/dev/sda1、/dev/sda5 等字样。在linux,分区的命令是fdisk。 阅读全文