11 2022 档案
摘要:讲得不错 from: https://cloud.tencent.com/developer/article/1500914 XGBoost的威名想必大家都有所耳闻,它不仅是数据科学竞赛神器,在工业界中也被广泛地使用。本文给大家分享珍藏了多年的XGBoost高频面试题,希望能够加深大家对XGBoos
阅读全文
摘要:讲得实在行云流水啊,服 from: https://cloud.tencent.com/developer/article/1517020 XGBoost超详细推导,终于讲明白了! 发布于2019-09-30 17:59:26阅读 2.3K0 - XGB中树结点分裂的依据是什么? - 如何计算树节点
阅读全文
摘要:简单说就是xgboost用二阶导数取代了GBDT中的步长,所以迭代的更精确 from:https://zhuanlan.zhihu.com/p/50176849 GBDT和XGBoost两个模型后者在Kaggle中使用的相当频繁。 其实这两者在算法中有着异曲同工之妙。 首先要从泰勒公式讲起: 泰勒公
阅读全文
摘要:from: https://blog.csdn.net/weixin_40633696/article/details/121810403 文章目录1. Self-Attention 的核心是什么?2. 不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵(W Q , W K ,
阅读全文
摘要:原文链接:https://jishuin.proginn.com/p/763bfbd565fc 本文在原文基础框架上有增加,附上更详细或者正确的解答。 1.Transformer为何使用多头注意力机制?(为什么不使用一个头)答:多头可以使参数矩阵形成多个子空间,矩阵整体的size不变,只是改变了每个
阅读全文
摘要:from: https://zhuanlan.zhihu.com/p/33173246 深度神经网络模型训练之难众所周知,其中一个重要的现象就是 Internal Covariate Shift. Batch Norm 大法自 2015 年由Google 提出之后,就成为深度学习必备之神器。自 BN
阅读全文