摘要:【参考】 【1】XGBoost算法分析与案例调参实例
阅读全文
摘要:主成分分析:把主成分表示成各原始变量的线性组合。 因子分析:原始变量表示成各因子的线性组合。 主成分分析:解释原始变量的总方差。 因子分析:解释原始变量的协方差。 主成分分析:几个原始变量,就有几个主成分。 因子分析:因子个数可以根据业务场景的需要人为指定。 主成分分析:给定的协方差矩阵或相关矩阵特
阅读全文
摘要:【参考】 1、回归模型中的哑变量是个啥?何时需要设置哑变量?
阅读全文
摘要:IV(信息价值)和WOE分箱(证据权重) 【参考】 【1】知乎 风控模型—WOE与IV指标的深入理解应用
阅读全文
摘要:区别: 假设检验通常是检验样本对应的总体之间是否有显著性差异 而关联性检验是检验是否显著相关。 一、单样本t检验 1、设计思想: 两个总体,总体A已知;总体B未知,但其样本已知,问题是未知总体B与已知总体A之间有无差异?实际上是验证该样本是否就是来自这个已知总体A? 2、适用: (1)已知一个总体和
阅读全文
摘要:学了机器学习,进一步理解到 机器学习方法=模型+策略+算法 三要素构成, 最近在做A/Btest 涉及假设检验,发现也可以用 模型+策略+算法 三要素来理解整个过程。回顾以前在学校里参加过多次数学建模竞赛经验,其实现实中的很多业务量化模型都可以归结为这个三个要素思路求解过程。 因此,这里对这个很好的
阅读全文
摘要:一、四种平均算法 平方平均数:Qn=√ [(a12+a22+...+an2)/n] ——>应用:标准差 算术平均数:An=(a1+a2+...+an)/n ——>1阶平均 ,是加权算数平均的一种特殊形式,缺点:容易受极端值影响 几何平均数:Gn=(a1·a2...an)1/n ——> 调和平均数:H
阅读全文
摘要:特别注意区别: (1)P-R曲线是分别将查准率Precision(精确率)作为纵坐标,查全率Recall(召回率)作为横坐标作的图。 (2)ROC曲线、AUC面积、Gini系数、KS值 都是基于真阳率TPR(又叫查全率、召回率、捕获率、命中率)和假阳率FPR(误诊率)两个重要的指标得来的。其中AUC
阅读全文
摘要:一、损失函数/代价函数/误差函数 1.1 回归问题 平方损失函数(最小二乘法) 光滑损失函数,可用梯度下降法求最优解, 缺点:异常点该损失函数惩罚力度大,因此,对异常点比较敏感。为解决该问题,可以采用绝对损失函数 绝对损失函数 对异常点更鲁棒一些, 缺点:在f=y处无法求导。综合考虑可导性和对异常点
阅读全文
摘要:https://www.zhihu.com/question/32021302?sort=created
阅读全文
摘要:两个向量的乘积一般有内积(点积)、外积之分,假设两个向量 a = [a1, a2,…, an]和b = [b1, b2,…, bn], 内积则为:a·b =a1b1+a2b2+……+anbn =|a|·|b|cosθ 两向量夹角为: cosθ =a·b /|a|·|b| =a1b1+a2b2+……+
阅读全文
摘要:原理: https://www.cnblogs.com/hellochennan/p/6654126.html https://www.cnblogs.com/hellochennan/p/6654128.html https://www.cnblogs.com/hellochennan/p/665
阅读全文
摘要:场景问题: 请教大家个问题~ 在工作中可能会有很多个指标来判断一个人或者访问的价值,例如时长,阅读的次数,曝光的次数,之类的很多个指标,那一般用什么算法或者办法去综合评判这个访问的价值。 RFM模型,感觉这个可能更偏向于有购买行为的一些指标,app内的粘性指标感觉不知道怎么往这三个指标上套用。我找到
阅读全文
摘要:特征缩放主要几种方法: 类型 规范化方法 sklearn 类名 说明 标准化 Standardization 标准差标准化 StandardScaler 得到均值为0,标准差1的近似正态分布。如果存在异常值,标准化后影响程度也被降低。 / 稳健标准化 RobustScaler RobustScale
阅读全文
摘要:一、【逻辑回归】 1、原理 线性函数通过一个sigmod函数,即可转换为[0,1]之间的概率值 2、优点 3、缺点 4、应用 二、【朴素贝叶斯】 1、原理 公式:P(A|B)=P(B|A)P(A) /P(B) 由联合概率公式 P(A,B)=P(A|B)P(B)=P(B|A)P(A) 推导而来,P(A
阅读全文
摘要:函数关系 两个变量x和y,当变量x取某个值,y依赖于x确定的关系取相应的确切地值,则称y是x的函数,记为y =f(x)。其中x为自变量,y为因变量。 如:某商品销售与销量的关系y=px 相关关系 当一个或几个关联变量取一定值,与之对应的另一变量的值虽不确定,但仍按照某种规律在一定范围内变化。现象之间
阅读全文
摘要:小结: (1)时间序列和回归分析的核心区别在于对数据的假设:回归分析假设每个样本数据点都是独立的;而时间序列则是利用数据之间的相关性进行预测。如:时间序列分析中一个基础模型就是AR(Auto-Regressive)模型,它利用过去的数据点y(t)、y(t-1)等来预测未来y(t+1)。还有如:移动平
阅读全文
摘要:虽然我也粗读过统计学的几本书,但从易懂性来说,都没有学校老师给的ppt好,或者说自己看书比较困难,但是听老师讲课就很容易懂。所以,我建议有条件的同学能够选修统计学这门课,没条件的同学可以去网上找一些相关视频,配套书籍可以选择茆诗松的《概率论与数理统计》。另外,《Head First Statisti
阅读全文
摘要:【1】极大似然估计详解,写的太好了!https://blog.csdn.net/qq_39355550/article/details/81809467
阅读全文
摘要:大学学习线性代数的时候,特征值(eigenvalue)和特征向量(eigenvector)一直不甚理解,尽管课本上说特征值和特征向量在工程技术领域有着广泛的应用,但是除了知道怎么求解特征值和特征向量之外,对其包含的现实意义知之甚少。 毕业五六年后,学习机器学习,用到PCA在进行主成分分析过程中,需要
阅读全文