摘要:一、四种平均算法 平方平均数:Qn=√ [(a12+a22+...+an2)/n] ——>应用:标准差 算术平均数:An=(a1+a2+...+an)/n ——>1阶平均 ,是加权算数平均的一种特殊形式,缺点:容易受极端值影响 几何平均数:Gn=(a1·a2...an)1/n ——> 调和平均数:H
阅读全文
摘要:特别注意区别: (1)P-R曲线是分别将查准率Precision(精确率)作为纵坐标,查全率Recall(召回率)作为横坐标作的图。 (2)ROC曲线、AUC面积、Gini系数、KS值 都是基于真阳率TPR(又叫查全率、召回率、捕获率、命中率)和假阳率FPR(误诊率)两个重要的指标得来的。其中AUC
阅读全文
摘要:一、损失函数/代价函数/误差函数 1.1 回归问题 平方损失函数(最小二乘法) 光滑损失函数,可用梯度下降法求最优解, 缺点:异常点该损失函数惩罚力度大,因此,对异常点比较敏感。为解决该问题,可以采用绝对损失函数 绝对损失函数 对异常点更鲁棒一些, 缺点:在f=y处无法求导。综合考虑可导性和对异常点
阅读全文
摘要:https://www.zhihu.com/question/32021302?sort=created
阅读全文
摘要:两个向量的乘积一般有内积(点积)、外积之分,假设两个向量 a = [a1, a2,…, an]和b = [b1, b2,…, bn], 内积则为:a·b =a1b1+a2b2+……+anbn =|a|·|b|cosθ 两向量夹角为: cosθ =a·b /|a|·|b| =a1b1+a2b2+……+
阅读全文
摘要:待完成 |练习项目 |用户流失预测及特征分析 参考 【1】 深度分析|《电信用户流失预测模型》(所有分类模型精度平均得分在0.8以上) 2~4 同一携程脱敏数据样本 ,不同分析方法 【2】Python项目实践-客户流失预测 【3】拓端数据 :PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST
阅读全文
摘要:原理: https://www.cnblogs.com/hellochennan/p/6654126.html https://www.cnblogs.com/hellochennan/p/6654128.html https://www.cnblogs.com/hellochennan/p/665
阅读全文
摘要:一、A/B test 目的 检验产品或活动方案调整优化在某指标上是否有显著改善效果。检验构建实验组和对照组。之后,在后期的观察中,通过一些统计方法,验证效果的差异性是否显著。 二、A/B test 原理 两独立样本t检验(注意区分计算不同:两总体均值检验、两总体率值检验) 三、A/B test 流程
阅读全文