摘要:
1 class A: 2 def __getattr__(self, name): 3 print("You use getattr.") 4 def __setattr__(self, name, value): 5 print("You use setattr.") 6 self.__dict_ 阅读全文
摘要:
1、编程计算两个日期之间的天数与周数 Python时间处理 dateutil模块: dateutil模块主要有两个函数,parser和rrule。 其中parser是根据字符串解析成datetime,而rrule则是根据定义的规则来生成datetime。 1 import datetime 2 fr 阅读全文
摘要:
3、 多维随机变量的分布 (1)多项分布 可参见https://blog.csdn.net/jteng/article/details/54632311 多项分布是对二项分布的扩展,二项分布是单变量分布,而多项分布式多变量分布。 二项分布每次试验试验只有两种结果,而多项分布每次试验则会有多种可能性, 阅读全文
摘要:
2、 一维随机变量的分布 (1)随机变量 类型 根据取值情况的不同可以将随机变量分为离散随机变量和连续随机变量 概率分布 随机变量一切可能值或范围的概率的规律 (2)常见离散分布 1)两点分布 随机变量X值可能取0和1两个值,则分布为 X 0 1 Pk 1-P P 则称X服从(0--1)分布或者两点 阅读全文
摘要:
1、 概率的基本概念 (1)条件概率 (2)事件的独立性 一件事情的发生于另一件事的发生没有影响,则称为两件事情独立。 若事件A与事件B独立,那么P(A|B) = P(A),P(B|A) = P(B),那么此时的概率公式可以化为 P(AB) = P(B)*P(A|B) = P(B)*P(A). 扩展 阅读全文
摘要:
9、优化 (1)最小二乘法 只要知道就可以求出a和b的值 注意:若在实验过程中,实验数据在坐标系中的分布类似指数函数,那么可以考虑经验公式的形式为y=aebx,那么可以将它变形为lny = lna + bx ,如此便是新型函数的形式。 (2)梯度下降 (3)牛顿法 牛顿法是一种用来求解可微函数的近似 阅读全文
摘要:
8、泰勒公式、麦克劳林公式和线性化 python中通过sympy库的f(x).series(x,x0,n)函数表示 f(x)的泰勒展开,(其中 x0 若无指定默认取值为 0 ,n 若无指定默认取值为 6) 阅读全文
摘要:
7、二元符合函数的求导法则 采用链式求导方法 阅读全文
摘要:
6、高阶偏导数 阅读全文
摘要:
5、多元函数的导数 在python中通过sympy库的Derivative(f(x,y,z),x).doit()对 f(x,y,z)的变量 x求偏导。 阅读全文
摘要:
4、函数的积分 牛顿-莱布尼茨公式: python中通过sympy库的integrate(f(x),x)对 f(x)求积分 阅读全文
摘要:
3、函数的微分 由上图可以看出,当x趋于无穷时,函数的微分和增量近似一致。 阅读全文
摘要:
2、导数 python中通过sympy库的diff(f(x),x)对 f(x)进行求导。 驻点和极值点的区别: 驻点:f'(x)=0的点; 极值点:这点附近这一点所对应的函数值最大或者最小(注意是这个点附近)。存在极值点的情况有两类,一类是一阶导数为0的点(也就是我们所说的驻点),另一类是一阶导数不 阅读全文
摘要:
说明:由于本部分基础较好,所以不做过多的基础说明,下面只记载易忘知识点。 python中可以通过sympy库的limit(f(x),x,x0)表示x→x0 时 f(x)的取值,即 limx→x0f(x)(其中∞在sympy中用两个小写字母“o”表示) 阅读全文
摘要:
第四章 特征值和特征向量 1、特征值与特征向量定义与性质 2、相似矩阵与相似变换定义、性质、作用 3、相似对角化 4、二次型 在python可以通过numpy.linalg.svd()函数实现矩阵的SVD处理。 5、特征分解和奇异值分解 每个矩阵不一定有特征分解,但是一定有奇异值分解(特征分解是针对 阅读全文
摘要:
第三章 线性映射 1、线性空间 (1)向量空间 (2)线性空间 说明: a:当同时满足加法运算(即封闭)和数量乘法(八条运算法则)才能说明V是数域F上的线性空间; b:第三条运算法则中的0元素并不是指特定的0向量,只要满足第三条运算法则的元素都是0元素 同理,第四条运算法则中的- 是一样的; (3) 阅读全文
摘要:
第二章 矩阵 1、求行列式的值 在python中可以使用 numpy.linalg.det 求行列式的值。 import numpy as np d = np.array(((2,3),(4,2))) final = np.linalg.det(d) print(final) #-7.9999999 阅读全文
摘要:
第一章 向量 1、柯西不等式: 2、向量的夹角 3、向量的投影 4、向量的线性相关 线性相关:其中a1,a2……an不全为0 线性无关:其中a1,a2……an都为0 当r(A)< n时,则说明矩阵A对应的齐次线性方程组有非零解,则表明A的各个向量线性相关。 阅读全文
摘要:
时间序列ARIMA模型 1、数据的平稳性与差分法 让均值和方差不发生明显的变化(让数据变平稳),用差分法 2、ARIMA模型 差分自回归平均移动模型 求解回归的经典算法:最大似然估计、最小二乘法 在具体运用时,需要指定三个参数,即(p,d,q); 其中:p表示自回归的阶数, d表示做几阶差分(一般做 阅读全文
摘要:
SQL和RDBMS的区别:用SQL操作RDBMS 一、数据的完整性 一个汉字占多少长度与编码有关: UTF-8:一个汉字=3个字节 GBK:一个汉字=2个字节 二、数据库基本操作 1、 登录数据库 首先进入mysql安装目录下的bin文件,然后运行命令: 2、退出登录:quit或者exit 3、 以 阅读全文
摘要:
1、案例1:辅助区域动态图 动态按钮“投资金额”的制作: "数据"菜单下"数据工作”组中的“数据验证”,选择"序列"。 2、 OFFSET ——函数中的极品 ——复杂的数据汇总、到数据透视表再到高级动态图表 OFFSET(C3,1,2,1,1)这个函数有5个参数:第一个参数是基点第二个参数是要偏移几 阅读全文
摘要:
1、柱形图 2、条形图 3、饼图 复合饼图 4、圆环图 5、组合图 设置不同的纵轴 6、漏斗图 其中:合计呈逐渐下降的趋势,可以用漏斗图进行展示! 绘制漏斗图首先需要构建辅助列,在插入图形的时候选择“堆型条形图”! 其中:辅助列公式为:例:=($E$11+1000-$E11)/2 7、地图 三维地图 阅读全文
摘要:
(1)K折交叉验证(KFold):通常K选取值为3、5、10 当不能确定使用何种验证方法时,可采用K折验证法; 当不知确定K的取值时,最优的情况是选10。 (2)分离训练数据集合评估数据集(train_test_split) 执行效率非常高,可以有效的解决某些算法执行速度慢的问题,也可以解决数据量大 阅读全文
摘要:
1、VarianceThreshold() 删除方差低的要素 是一种简单的特征选择基线方法。它会删除方差不符合某个阈值的所有要素。默认情况下,它会删除所有零方差要素,即在所有样本中具有相同值的要素。 2、单变量特征选择 (1)SelectKBest()删除除了k个最高得分外的所有特征 对于回归:f_ 阅读全文
摘要:
分类算法评估矩阵 (1)分类准确度 (2)对数损失函数log_loss() (3)混淆矩阵confusion_matrix() (4)AUC图 一般在排序(rank)时用AUC图比准确率、召回率、f1值要好 (5)分类报告classification_report() import numpy as 阅读全文
摘要:
学习:通过接收到的数据,归纳提取相同与不同 机器学习:让计算机以数据为基础,进行归纳与总结 模型:数据解释现象的系统。 6:2:2 · 训练集:用来训练与拟合模型 · 测试集:模型泛化能力的考量。(泛化:对数据的预测能力) · 验证集:当通过训练集训练出多个模型后,使用验证集数据纠偏或比较预测 当数 阅读全文
摘要:
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 5.1、数据清洗 5.1.1 数据样本抽样 · 样本要具有代表性 · 样本比例要平衡以及样本不均衡时如何处理 · 考虑全量数据 5.1.2异常值(空值)处理 · 识别异常值和重复值 Pandas:isnull()/duplicate 阅读全文
摘要:
4.1、多因子 4.1.1 假设检验与方差检验 假设检验适用于(数据样本较小时) 方差检验适用于(数据样本较大时) import numpy as np import scipy.stats as ss #生成一20个数的标准正态分布 norm_dist = ss.norm.rvs(size=20) 阅读全文
摘要:
1、理论铺垫 Dataframe和Series均适用 ~集中趋势:均值mean()、中位数median()、与分位数quantile(q=0.25)、众数mode() ~离中趋势:标准差std()、方差var() import scipy.stats as ss 正态分布:ss.norm 、卡方分布 阅读全文
摘要:
数据学习网站:Kaggle 、天池、各个领域的统计数据(国家统计局……) https://www.jianshu.com/p/0fa4f84d48ee <!--StartFragment --> 世界卫生组织 : https://www.who.int/research/en/ Healthdata 阅读全文
摘要:
a) 数据仓库(DW) 数据库 VS 仓库 数据库面向业务存储,仓库面向主题存储 数据库针对应用(OLTP),仓库针对分析(OLAP) 数据库组织规范,仓库可能有冗余,相对变化大,数据量大 b) 检测与抓取 c) 填写、埋点、日志 d) 计算 阅读全文
摘要:
默认情况下Python的logging模块将日志打印到了标准输出中,且只显示了大于等于WARNING级别的日志, 这说明默认的日志级别设置为WARNING(日志级别等级CRITICAL > ERROR > WARNING > INFO > DEBUG), 默认的日志格式为日志级别:Logger名称: 阅读全文
摘要:
该模块适用于配置文件的格式与windows ini文件类似,可以包含一个或多个节(section),每个节可以有多个参数(键=值)。 创建文件 查找文件 增删改操作 阅读全文
摘要:
Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等。 什么是摘要算法呢? 摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。 摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要dig 阅读全文
摘要:
序列化的目的 1、以某种存储形式使自定义对象持久化; 2、将对象从一个地方传递到另一个地方。 3、使程序更具维护性。 序列化--转向一个字符串数据类型序列--及时字符串何处用到: 数据存储 网络上传输的时候从数据类型到字符串的过程,叫做序列化从字符串到数据类型的过程,叫做反序列化分类 json ** 阅读全文
摘要:
random:随机数模块 os:和操作系统打交道的模块 sys:和Python解释器打交道的模块 序列化模块:Python中的数据类型和str转换的模块 http://www.cnblogs.com/Eva-J/articles/7228075.html#_label15 time模块 random 阅读全文
摘要:
库:具有相关功能模块的集合 import sys.builtin_module_names #返回内建模块的名字modules 查看所有可用模块的名字1.1.1获取当前日期和时间 from datetime import datetime now = datetime.now() now1 = da 阅读全文
摘要:
模块是一个包含所有定义函数和变量的文件,后缀名是.py 在Python中,模块也是对象(有属性,有方法) pip是管理模块的重要工具,可以安装扩展模块 import sys sys.builtin_module_names #查看内建模块 sys.module.items() #显示偶预加载模块的相 阅读全文