03 2019 档案

摘要:Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。 它是由编码组件、解码组件和它们之间的连接组成。 编码组件部分由一堆编码器(6个 encoder)构成。解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。 所有的编 阅读全文
posted @ 2019-03-28 15:01 cup_leo 阅读(4243) 评论(0) 推荐(0) 编辑
摘要:逻辑回归是假设数据服从独立且服从伯努利分布,多用于二分类场景,应用极大似然估计构造损失函数,并使用梯度下降法对参数进行估计。 阅读全文
posted @ 2019-03-26 13:14 cup_leo 阅读(582) 评论(0) 推荐(0) 编辑
摘要:1. Gradient boosting(GB) Gradient boosting的思想是迭代生多个(M个)弱的模型,然后将每个弱模型的预测结果相加,后面的模型Fm+1(x)基于前面学习模型的Fm(x)的效果生成的,关系如下: 实际中往往是基于loss Function 在函数空间的的负梯度学习, 阅读全文
posted @ 2019-03-25 16:19 cup_leo 阅读(6021) 评论(0) 推荐(0) 编辑
摘要:https://www.cnblogs.com/ZhangRuoXu/p/6370107.html https://blog.csdn.net/tianguiyuyu/article/details/80689213 阅读全文
posted @ 2019-03-04 20:53 cup_leo 阅读(419) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示