小舔哥

2018年3月20日

摘要： pyplot的一些知识 matplotlab中的对象： matplotlib是面向对象的，在画图的时候我们了解一些对象，对我们画图是有帮助的。绘图的对象大致分为三层： backend_bases.FigureCanvas : 图表的绘制领域 backend_bases.Renderer : 知道如何阅读全文

posted @ 2018-03-20 11:55 小舔哥阅读(14138) 评论(0) 推荐(2) 编辑

2018年3月18日

数据预处理之缺失值的处理

摘要：缺失值的类型首先对数据的变量（特征）按照缺失和不缺失进行分类：不含有缺失值的变量称为完全变量，含有缺失值的变量称为非完全变量。缺失值的类型分为三种：完全随机缺失，随机缺失和非随机缺失。完全随机缺失：缺失的变量和其余的变量没有关系。比如”家庭住址“这个信息，和”身高“等其余的变量没有关系。随阅读全文

posted @ 2018-03-18 18:46 小舔哥阅读(9152) 评论(0) 推荐(0) 编辑

2018年3月17日

数据预处理之标准化

摘要：数据的标准化（Standardization)和归一化(Normalization)有什么区别？关于数据的标准化和归一化区别的说法有点乱。总的来说有这么几种分法 1：不做区分，都意味着标准化。 2：大部分说法是这样的：归一化是这么一个过程$x’ = \frac{x-x_{min}}{x_{max} 阅读全文

posted @ 2018-03-17 15:34 小舔哥阅读(7753) 评论(0) 推荐(0) 编辑

2018年3月15日

数据预处理之离散化

摘要：按照我们对于变量的分类：分为数值变量和分类变量，数值变量可以分为连续型和离散型，分类变量又有有序的和无序的。下面我将介绍一些对于这些变量进行离散化处理。无序分类变量的离散化方法：比如在泰坦尼克号当中，有一个变量叫做乘客登陆的港口，取值为（C, Q, S）代表三个地方。这是一个典型的无序分类变量，阅读全文

posted @ 2018-03-15 21:19 小舔哥阅读(20963) 评论(1) 推荐(1) 编辑

2018年3月13日

集成学习中的 stacking 以及python实现

摘要：集成学习 Ensemble learning 中文名叫做集成学习，它并不是一个单独的机器学习算法，而是将很多的机器学习算法结合在一起，我们把组成集成学习的算法叫做“个体学习器”。在集成学习器当中，个体学习器都相同，那么这些个体学习器可以叫做“基学习器”。个体学习器组合在一起形成的集成学习，常常能够阅读全文

posted @ 2018-03-13 22:08 小舔哥阅读(30040) 评论(0) 推荐(4) 编辑

使用sklearn进行交叉验证

摘要：模型评估方法假如我们有一个带标签的数据集D，我们如何选择最优的模型？衡量模型好坏的标准是看这个模型在新的数据集上面表现的如何，也就是看它的泛化误差。因为实际的数据没有标签，所以泛化误差是不可能直接得到的。于是我们需要在数据集D上面划分出来一小部分数据测试D的性能，用它来近似代替泛化误差。有三种阅读全文

posted @ 2018-03-13 11:52 小舔哥阅读(64661) 评论(0) 推荐(7) 编辑

2017年12月12日

histogram 和 bar plot的区别

摘要：最本质的区别是这样的：histogram用来描述的是numerical变量，而bar plot用来描述的是categorical类型的变量。统计学当中关于变量的分类这可以从它们的图形上面看到： histogram的横轴用bin把变量分在一个特定的区间里面，比如年龄变量，以五岁一个长度分开，那么一个阅读全文

posted @ 2017-12-12 10:22 小舔哥阅读(9815) 评论(1) 推荐(3) 编辑

2017年12月6日

统计学当中关于变量的分类

摘要：统计学中的变量指的是研究对象的特征，我们有时也称为属性，例如人的身高、性别等。每个变量都有变量的值和变量的类型。我们按照变量的类型对变量进行划分。统计学中的变量（variables）大致可以分为数值变量（numrical）和分类变量（categorical）。数值型变量是值可以取一些列的数，这阅读全文

posted @ 2017-12-06 21:49 小舔哥阅读(68411) 评论(0) 推荐(2) 编辑

2017年12月3日

工头和母头

摘要：为什么接头要分为“公头”和"母头"?有何由来在接口当中有工头和母头公头是插头当中有插针的那一端母头是插头当中有插槽的那一端 VGA 两端母头，接线公头有的接口连接的时候，连接的两个部分提供两个母头，中间用一个两端是公头的线连接起来，比如pc和显示器的vga接口都是母头，中间的连接线两端是公头阅读全文

posted @ 2017-12-03 10:56 小舔哥阅读(1253) 评论(0) 推荐(0) 编辑

2017年11月24日

硬盘分区格式化和挂载

摘要：一块硬盘，从它最开始的什么都没有的状态，到被我们利用，要经历分区、格式化和挂载。分区：分区是把一个硬盘分成几个逻辑分区。这其中的概念有：主分区，扩展分区，逻辑分区。将一个/dev/sda硬盘分区以后，可能会出现/dev/sda1、/dev/sda5 等字样。在linux，分区的命令是fdisk。阅读全文

posted @ 2017-11-24 08:57 小舔哥阅读(389) 评论(0) 推荐(0) 编辑

公告