04 2018 档案

摘要:来自:https://blog.csdn.net/csdn15698845876/article/details/73380803 np.vstack:按垂直方向(行顺序)堆叠数组构成一个新的数组 np.hstack:按水平方向(列顺序)堆叠数组构成一个新的数组 阅读全文
posted @ 2018-04-26 21:04 做梦当财神 阅读(893) 评论(0) 推荐(0) 编辑
摘要:判断重复数据的判断方法:df.duplicated(),该方法中两个主要的参数是subset和keep: subset:要判断重复值的列,可以指定特定列或多个列。默认使用全部列。 keep:当重复时不标记为True的规则,可设置为第一个、最后一个和全部标记为True(False)。默认为第一个,即第 阅读全文
posted @ 2018-04-20 19:54 做梦当财神 阅读(341) 评论(0) 推荐(0) 编辑
摘要:异常值也称离群点,异常值分析也称离群点分析。 1. 简单统计量分析 最常用的是最大值和最小值,超出合理范围为异常。如客户年龄为199岁,该值为异常。 2. 3σ原则 (1)、如果数据服从正态分布,在3σ原则下,异常值被定义为与平均值偏差超过3倍标准差的值。 在正态分布情况下,距离平均值3α之外的值出 阅读全文
posted @ 2018-04-20 10:46 做梦当财神 阅读(3227) 评论(0) 推荐(0) 编辑
摘要:1. 数据缺失分为两种:行记录缺失,列记录缺失。 2. 不同的数据存储和环境对缺失值的表示也不同。例如:数据库中是Null,Python是None,Pandas或Numpy是NaN。 3. 对缺失值的处理通常4种方法: (1). 丢弃 下面两种场景不宜采用该方法: 不完整数据比例较大,超过10% 缺 阅读全文
posted @ 2018-04-18 16:48 做梦当财神 阅读(1044) 评论(0) 推荐(0) 编辑
摘要:1. fit_transform是fit和transform的组合。 2. fit(x,y)传两个参数的是有监督学习的算法,fit(x)传一个参数的是无监督学习的算法,比如降维、特征提取、标准化。 3. fit和transform没有任何关系,之所以出来这么个函数名,仅仅是为了写代码方便,所以会发现 阅读全文
posted @ 2018-04-18 15:24 做梦当财神 阅读(14561) 评论(1) 推荐(3) 编辑
摘要:简单线性回归 线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误差之后,方程的解法就存在改变,一般使用最小二乘法计算。 使用sklearn.liner_model.LinearRegression进行线性回归 sklearn对Data Mining的各类算法已经有了较好的封装,基本可以使用 阅读全文
posted @ 2018-04-14 18:07 做梦当财神 阅读(332) 评论(0) 推荐(0) 编辑
摘要:1. 为什么会有偏差和方差? 对学习算法除了通过实验估计其泛化性能,往往还希望了解它 “为什么” 具有这样的性能。“偏差-方差分解”(biasvariance decomposition)是解释学习算法泛化性能的一种工具。 在机器学习中,我们用训练数据集去训练一个模型,通常的做法定义一个 阅读全文
posted @ 2018-04-13 14:54 做梦当财神 阅读(234) 评论(0) 推荐(0) 编辑
摘要:主成分分析(principal component analysis,PCA​​​​)是无监督学习方法。该方法将原来由线性相关变量表示的数据,通过正交变换,变成少数由线性无关的新变量表示的数据,线性无关的变量称为主成分。 PCA​​​​ 的变量个数通常小于原始变量的个数,属于降维方法。 阅读全文
posted @ 2018-04-13 11:05 做梦当财神 阅读(1924) 评论(0) 推荐(0) 编辑
摘要:cPickle模块: 在python中,一般可以使用pickle类来进行python对象序列化,而cPickle提供了一个更快速简单的接口,如python文档所说:“cPickle - A faster pickle”。 cPickle可以对任意一种类型的python对象进行序列化操作,比如:lis 阅读全文
posted @ 2018-04-10 15:40 做梦当财神 阅读(4137) 评论(0) 推荐(0) 编辑
摘要:PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库,Python2中使用mysqldb。 数据库连接 连接数据库前,请先确认一下事项: 已经创建数据库testdb。 在testdb数据库中已经创建表employee。 employee表字段为first_name,last_n 阅读全文
posted @ 2018-04-08 17:42 做梦当财神 阅读(430) 评论(0) 推荐(0) 编辑
摘要:数据: matlab中双对数函数: 命令: 解释: loglog:用于画双对数坐标,对数坐标可以清楚地看到较小值的变化 blacko-:其中black表示黑色边框,o表示为圆形,-表示点之间需要连线且为直线段 ‘MarkerFaceColor’, [1, 0, 0]表示点颜色为红色 grid on: 阅读全文
posted @ 2018-04-04 22:02 做梦当财神 阅读(1971) 评论(0) 推荐(0) 编辑
摘要:来自:Eastmount 在我们日常生活中Power Law(幂次分布,Power-law Distributions)是常见的一个数学模型,如二八原则。这个世界上是20%的人掌握80%的人的金钱去经营,20%的人口拥有80%的财富,20%的上市公司创造80%的价值,80%的收入来自20%的商品等。 阅读全文
posted @ 2018-04-04 16:03 做梦当财神 阅读(11511) 评论(0) 推荐(2) 编辑
摘要:np.zeros构造一个全部由0组成的矩阵 用法:zeros(shape, dtype = float, order = 'C') 参数: t ,位域,如t4代表4位 b,布尔值,true or false i,整数,如i8(64位) u,无符号整数,u8(64位) f,浮点数,f8(64位) c, 阅读全文
posted @ 2018-04-02 15:04 做梦当财神 阅读(791) 评论(0) 推荐(0) 编辑
摘要:来自:某小皮 最优化函数库Optimization 优化是找到最小值或等式的数值解的问题。scipy.optimization子模块提供函数最小值,曲线拟合和寻找等式的根的有用算法。 最小二乘拟合 假设有一组实验数据(xi, yi),事先知道它们之间应该满足某函数关系yi = f(xi),通过这些已 阅读全文
posted @ 2018-04-02 09:42 做梦当财神 阅读(4846) 评论(5) 推荐(0) 编辑

点击右上角即可分享
微信分享提示