05 2018 档案
摘要:泰勒公式通过把【任意函数表达式】转换(重写)为【多项式】形式,是一种极其强大的函数近似工具。 为什么说它强大呢? 多项式非常【友好】,三易,易计算,易求导,易积分 几何感觉和计算感觉都很直观,如抛物线和几次方就是底数自己乘自己乘几次 泰勒公式干的事情就是:使用多项式表达式估计(近似)f(x)在x=a
阅读全文
摘要:由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,
阅读全文
摘要:学习曲线是一种有用的诊断图形,它描述了机器学习算法相对可用观测量数量的表现。它的主要思想是将算法的训练性能与交叉验证结果进行比较,训练性能主要是指样本内误差获准确率,交叉验证通常采用十折交叉验证方法。 就训练集而言,训练结果的期待开始时应该高,然后会下降。然而,根据假设的偏差和方差水平不同,有不同的
阅读全文
摘要:lightgbm对于类别变量的处理 效率和内存上的提升 1) 在训练决策树计算切分点的增益时,xgboost采用预排序,即需要对每个样本的切分位置都要计算一遍,所以时间复杂度是O(#data)。 而LightGBM则是将样本离散化为直方图,直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,
阅读全文
摘要:尊重原创 来源: https://blog.csdn.net/a790209714/article/details/78086867 XGBoost的四大改进: ①改进残差函数 不用Gini作为残差,用二阶泰勒展开+树的复杂度(正则项) 带来如下好处: 1.可以控制树的复杂度 2.带有关于梯度的更多
阅读全文