摘要: 参考资料: https://blog.csdn.net/u012328159/article/details/122938925 https://blog.csdn.net/u012328159/article/details/120684544?spm=1001.2014.3001.5501 De 阅读全文
posted @ 2024-09-20 18:30 Un-Defined 阅读(5) 评论(0) 推荐(0) 编辑
摘要: MSE 均方差(Mean squared error,MSE),是真实值与预测值的差值的平方然后求和平均。该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值,其值越小说明拟合效果越好 \[MSE=\frac{1}{N}\sum_{i=1}^N(f(x_i)-y_i)^2 \]RMSE 均 阅读全文
posted @ 2024-09-20 18:29 Un-Defined 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 粗排 精排 粗排和精排的一致性 参考资料:https://www.zhihu.com/question/554471691/answer/3175633203 具体而言,精排模型的训练样本来自于曝光、点击等行为日志。在推荐场景下,能够得到曝光的物品是经过了召回、粗排之后,并且经过了线上的精排模型筛选 阅读全文
posted @ 2024-08-27 09:09 Un-Defined 阅读(69) 评论(0) 推荐(0) 编辑
摘要: BatchNorm & LayerNorm 目录BatchNorm & LayerNormBatchNorm过程LayerNorm协变量漂移协变量漂移梯度消失 Normalization作用: 1.缓解内部协变量偏移。 在深度神经网络中,随着网络层数的加深,每一层的参数更新都可能导致后续层的输入分布 阅读全文
posted @ 2024-08-27 09:07 Un-Defined 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 优化器 目录优化器SGDAdagradAdadeltaRMSpropAdamAdamW SGD 随机梯度下降 问题:训练轨迹会呈现锯齿状,这无疑会大大延长训练时间。同时,由于存在摆动现象,学习率只能设置的较小,才不会因为步伐太大而偏离最小值。 Momentum:将一段时间内的梯度向量进行了加权平均, 阅读全文
posted @ 2024-08-27 09:06 Un-Defined 阅读(5) 评论(0) 推荐(0) 编辑
摘要: Transformer八股 目录Transformer八股Self-Attention 的注意力分数计算公式为什么要进行scaling?为什么是 \(\sqrt{d_k}\)?Position EmbeddingTransformer位置编码的性质 Self-Attention 的注意力分数计算公式 阅读全文
posted @ 2024-08-27 09:06 Un-Defined 阅读(8) 评论(0) 推荐(0) 编辑
摘要: Dropout 目录Dropout平衡训练和测试差异实现代码在回归任务中,用dropout的效果不好 Dropout 是在训练过程中已一定概率使神经元失活,即输出为 0,能提高模型的泛化能力,减少过拟合 平衡训练和测试差异 在测试阶段,Dropout 会被关闭。 为了保持训练阶段和测试阶段的输出期望 阅读全文
posted @ 2024-08-27 09:06 Un-Defined 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 参考资料: https://www.cnblogs.com/zingp/p/10375691.html 《百面机器学习》 L1、L2正则化 1. 正则化的概念 正则化 (Regularization) 是机器学习中对原始损失函数引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是目 阅读全文
posted @ 2024-08-27 09:04 Un-Defined 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 参考资料:https://blog.csdn.net/zjuPeco/article/details/77371645 3 特征重要性评估 现实情况下,一个数据集中往往有成百上前个特征,如何在其中选择比结果影响最大的那几个特征,以此来缩减建立模型时的特征数是我们比较关心的问题。这样的方法其实很歹,比 阅读全文
posted @ 2024-08-27 09:04 Un-Defined 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 参考: https://blog.csdn.net/Datawhale/article/details/120582526 https://zhuanlan.zhihu.com/p/74198735 特征选择 目录特征选择一般流程三大类方法过滤法1. 单变量2. 多变量2.1 连续型vs连续型(1) 阅读全文
posted @ 2024-08-27 09:04 Un-Defined 阅读(43) 评论(0) 推荐(0) 编辑