04 2018 档案
摘要:来自:https://blog.csdn.net/csdn15698845876/article/details/73380803 np.vstack:按垂直方向(行顺序)堆叠数组构成一个新的数组 np.hstack:按水平方向(列顺序)堆叠数组构成一个新的数组
阅读全文
摘要:判断重复数据的判断方法:df.duplicated(),该方法中两个主要的参数是subset和keep: subset:要判断重复值的列,可以指定特定列或多个列。默认使用全部列。 keep:当重复时不标记为True的规则,可设置为第一个、最后一个和全部标记为True(False)。默认为第一个,即第
阅读全文
摘要:异常值也称离群点,异常值分析也称离群点分析。 1. 简单统计量分析 最常用的是最大值和最小值,超出合理范围为异常。如客户年龄为199岁,该值为异常。 2. 3σ原则 (1)、如果数据服从正态分布,在3σ原则下,异常值被定义为与平均值偏差超过3倍标准差的值。 在正态分布情况下,距离平均值3α之外的值出
阅读全文
摘要:1. 数据缺失分为两种:行记录缺失,列记录缺失。 2. 不同的数据存储和环境对缺失值的表示也不同。例如:数据库中是Null,Python是None,Pandas或Numpy是NaN。 3. 对缺失值的处理通常4种方法: (1). 丢弃 下面两种场景不宜采用该方法: 不完整数据比例较大,超过10% 缺
阅读全文
摘要:1. fit_transform是fit和transform的组合。 2. fit(x,y)传两个参数的是有监督学习的算法,fit(x)传一个参数的是无监督学习的算法,比如降维、特征提取、标准化。 3. fit和transform没有任何关系,之所以出来这么个函数名,仅仅是为了写代码方便,所以会发现
阅读全文
摘要:简单线性回归 线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误差之后,方程的解法就存在改变,一般使用最小二乘法计算。 使用sklearn.liner_model.LinearRegression进行线性回归 sklearn对Data Mining的各类算法已经有了较好的封装,基本可以使用
阅读全文
摘要:1. 为什么会有偏差和方差? 对学习算法除了通过实验估计其泛化性能,往往还希望了解它 “为什么” 具有这样的性能。“偏差-方差分解”()是解释学习算法泛化性能的一种工具。 在机器学习中,我们用训练数据集去训练一个模型,通常的做法定义一个
阅读全文
摘要:主成分分析()是无监督学习方法。该方法将原来由线性相关变量表示的数据,通过正交变换,变成少数由线性无关的新变量表示的数据,线性无关的变量称为主成分。 的变量个数通常小于原始变量的个数,属于降维方法。
阅读全文
摘要:cPickle模块: 在python中,一般可以使用pickle类来进行python对象序列化,而cPickle提供了一个更快速简单的接口,如python文档所说:“cPickle - A faster pickle”。 cPickle可以对任意一种类型的python对象进行序列化操作,比如:lis
阅读全文
摘要:PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库,Python2中使用mysqldb。 数据库连接 连接数据库前,请先确认一下事项: 已经创建数据库testdb。 在testdb数据库中已经创建表employee。 employee表字段为first_name,last_n
阅读全文
摘要:数据: matlab中双对数函数: 命令: 解释: loglog:用于画双对数坐标,对数坐标可以清楚地看到较小值的变化 blacko-:其中black表示黑色边框,o表示为圆形,-表示点之间需要连线且为直线段 ‘MarkerFaceColor’, [1, 0, 0]表示点颜色为红色 grid on:
阅读全文
摘要:来自:Eastmount 在我们日常生活中Power Law(幂次分布,Power-law Distributions)是常见的一个数学模型,如二八原则。这个世界上是20%的人掌握80%的人的金钱去经营,20%的人口拥有80%的财富,20%的上市公司创造80%的价值,80%的收入来自20%的商品等。
阅读全文
摘要:np.zeros构造一个全部由0组成的矩阵 用法:zeros(shape, dtype = float, order = 'C') 参数: t ,位域,如t4代表4位 b,布尔值,true or false i,整数,如i8(64位) u,无符号整数,u8(64位) f,浮点数,f8(64位) c,
阅读全文
摘要:来自:某小皮 最优化函数库Optimization 优化是找到最小值或等式的数值解的问题。scipy.optimization子模块提供函数最小值,曲线拟合和寻找等式的根的有用算法。 最小二乘拟合 假设有一组实验数据(xi, yi),事先知道它们之间应该满足某函数关系yi = f(xi),通过这些已
阅读全文