摘要:
来自:https://blog.csdn.net/xw_classmate/article/details/51333646 来自:https://blog.csdn.net/chenKFKevin/article/details/62049060 来自:https://blog.csdn.net/ 阅读全文
摘要:
来自:https://blog.csdn.net/csdn15698845876/article/details/73380803 np.vstack:按垂直方向(行顺序)堆叠数组构成一个新的数组 np.hstack:按水平方向(列顺序)堆叠数组构成一个新的数组 阅读全文
摘要:
判断重复数据的判断方法:df.duplicated(),该方法中两个主要的参数是subset和keep: subset:要判断重复值的列,可以指定特定列或多个列。默认使用全部列。 keep:当重复时不标记为True的规则,可设置为第一个、最后一个和全部标记为True(False)。默认为第一个,即第 阅读全文
摘要:
异常值也称离群点,异常值分析也称离群点分析。 1. 简单统计量分析 最常用的是最大值和最小值,超出合理范围为异常。如客户年龄为199岁,该值为异常。 2. 3σ原则 (1)、如果数据服从正态分布,在3σ原则下,异常值被定义为与平均值偏差超过3倍标准差的值。 在正态分布情况下,距离平均值3α之外的值出 阅读全文
摘要:
1. 数据缺失分为两种:行记录缺失,列记录缺失。 2. 不同的数据存储和环境对缺失值的表示也不同。例如:数据库中是Null,Python是None,Pandas或Numpy是NaN。 3. 对缺失值的处理通常4种方法: (1). 丢弃 下面两种场景不宜采用该方法: 不完整数据比例较大,超过10% 缺 阅读全文
摘要:
1. fit_transform是fit和transform的组合。 2. fit(x,y)传两个参数的是有监督学习的算法,fit(x)传一个参数的是无监督学习的算法,比如降维、特征提取、标准化。 3. fit和transform没有任何关系,之所以出来这么个函数名,仅仅是为了写代码方便,所以会发现 阅读全文
摘要:
简单线性回归 线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误差之后,方程的解法就存在改变,一般使用最小二乘法计算。 使用sklearn.liner_model.LinearRegression进行线性回归 sklearn对Data Mining的各类算法已经有了较好的封装,基本可以使用 阅读全文
摘要:
1. 为什么会有偏差和方差? 对学习算法除了通过实验估计其泛化性能,往往还希望了解它 “为什么” 具有这样的性能。“偏差-方差分解”(\(bias-variance\ decomposition\))是解释学习算法泛化性能的一种工具。 在机器学习中,我们用训练数据集去训练一个模型,通常的做法定义一个 阅读全文
摘要:
主成分分析($principal\ component\ analysis, PCA$)是无监督学习方法。该方法将原来由线性相关变量表示的数据,通过正交变换,变成少数由线性无关的新变量表示的数据,线性无关的变量称为主成分。 $PCA$ 的变量个数通常小于原始变量的个数,属于降维方法。 阅读全文
摘要:
cPickle模块: 在python中,一般可以使用pickle类来进行python对象序列化,而cPickle提供了一个更快速简单的接口,如python文档所说:“cPickle - A faster pickle”。 cPickle可以对任意一种类型的python对象进行序列化操作,比如:lis 阅读全文