03 2019 档案
摘要:Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。 它是由编码组件、解码组件和它们之间的连接组成。 编码组件部分由一堆编码器(6个 encoder)构成。解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。 所有的编
阅读全文
摘要:逻辑回归是假设数据服从独立且服从伯努利分布,多用于二分类场景,应用极大似然估计构造损失函数,并使用梯度下降法对参数进行估计。
阅读全文
摘要:1. Gradient boosting(GB) Gradient boosting的思想是迭代生多个(M个)弱的模型,然后将每个弱模型的预测结果相加,后面的模型Fm+1(x)基于前面学习模型的Fm(x)的效果生成的,关系如下: 实际中往往是基于loss Function 在函数空间的的负梯度学习,
阅读全文
摘要:https://www.cnblogs.com/ZhangRuoXu/p/6370107.html https://blog.csdn.net/tianguiyuyu/article/details/80689213
阅读全文