摘要:【参考】 1、回归模型中的哑变量是个啥?何时需要设置哑变量?
阅读全文
摘要:一、四种平均算法 平方平均数:Qn=√ [(a12+a22+...+an2)/n] ——>应用:标准差 算术平均数:An=(a1+a2+...+an)/n ——>1阶平均 ,是加权算数平均的一种特殊形式,缺点:容易受极端值影响 几何平均数:Gn=(a1·a2...an)1/n ——> 调和平均数:H
阅读全文
摘要:特别注意区别: (1)P-R曲线是分别将查准率Precision(精确率)作为纵坐标,查全率Recall(召回率)作为横坐标作的图。 (2)ROC曲线、AUC面积、Gini系数、KS值 都是基于真阳率TPR(又叫查全率、召回率、捕获率、命中率)和假阳率FPR(误诊率)两个重要的指标得来的。其中AUC
阅读全文
摘要:一、损失函数/代价函数/误差函数 1.1 回归问题 平方损失函数(最小二乘法) 光滑损失函数,可用梯度下降法求最优解, 缺点:异常点该损失函数惩罚力度大,因此,对异常点比较敏感。为解决该问题,可以采用绝对损失函数 绝对损失函数 对异常点更鲁棒一些, 缺点:在f=y处无法求导。综合考虑可导性和对异常点
阅读全文
摘要:https://www.zhihu.com/question/32021302?sort=created
阅读全文
摘要:两个向量的乘积一般有内积(点积)、外积之分,假设两个向量 a = [a1, a2,…, an]和b = [b1, b2,…, bn], 内积则为:a·b =a1b1+a2b2+……+anbn =|a|·|b|cosθ 两向量夹角为: cosθ =a·b /|a|·|b| =a1b1+a2b2+……+
阅读全文
摘要:【1】极大似然估计详解,写的太好了!https://blog.csdn.net/qq_39355550/article/details/81809467
阅读全文
摘要:大学学习线性代数的时候,特征值(eigenvalue)和特征向量(eigenvector)一直不甚理解,尽管课本上说特征值和特征向量在工程技术领域有着广泛的应用,但是除了知道怎么求解特征值和特征向量之外,对其包含的现实意义知之甚少。 毕业五六年后,学习机器学习,用到PCA在进行主成分分析过程中,需要
阅读全文
摘要:峰度(Kurtosis) 定义 峰度又称峰态系数,表征概率密度分布曲线在平均值处峰值高低的特征数,即是描述总体中所有取值分布形态陡缓程度的统计量。直观看来,峰度反映了峰部的尖度。这个统计量需要与正态分布(也叫常态分布)相比较。 公式 定义上峰度是样本的标准四阶中心矩(standardized 4rd
阅读全文
摘要:p分位数的原理及计算 大纲>> 1.统计上的分位数概念 2.分位数的计算方法及举例 2.1首先确定p分位数的位置(依据项数分为基数、偶数情况) 2.2 求上一步确定的p分位数位置处的具体值 3.python中的分位数计算 1.统计上的分位数概念 统计上,分位数亦称分位点,是指将一个随机变量的概率分布
阅读全文