SVM
摘要:内容来源网络,侵权删 Python3《机器学习实战》学习笔记(八):支持向量机原理篇之手撕线性SVM 支持向量机(SVM)——原理篇 SVM分类器原理详解
阅读全文
posted @
2024-03-29 12:40
zhou-snaker
阅读(4)
推荐(0) 编辑
层次softmax和负采样
摘要:个人学习使用,侵权删 word2vec中的负采样与分层softmax - 向阳树的文章 - 知乎 Word2Vec教程-Negative Sampling 负采样
阅读全文
posted @
2024-03-15 16:29
zhou-snaker
阅读(8)
推荐(0) 编辑
深度学习模型压缩技术
摘要:个人学习使用,侵权删 参考资料: 深度学习模型压缩技术
阅读全文
posted @
2024-03-07 14:16
zhou-snaker
阅读(7)
推荐(0) 编辑
L0,L1,L2正则化及其稀疏解
摘要:个人学习使用,侵权删 参考资料: L1,L2,L0区别,为什么可以防止过拟合 L1正则化及其稀疏性解释 深度学习训练中是否有必要使用L1获得稀疏解?
阅读全文
posted @
2024-03-07 13:41
zhou-snaker
阅读(7)
推荐(0) 编辑
bagging和boosting算法
摘要:个人学习使用,侵权删 【集成学习】:bagging和boosting算法及对比
阅读全文
posted @
2024-03-06 14:02
zhou-snaker
阅读(2)
推荐(0) 编辑
为什么 Bert 的三个 Embedding 可以进行相加?
摘要:个人学习使用,侵权删 参考连接: 为什么 Bert 的三个 Embedding 可以进行相加?
阅读全文
posted @
2024-03-04 15:05
zhou-snaker
阅读(9)
推荐(0) 编辑
生成时预训练模型
摘要:个人学习使用,侵权删 参考连接: 生成式预训练模型:UniLM、BART、T5、GPT
阅读全文
posted @
2024-03-04 11:16
zhou-snaker
阅读(6)
推荐(0) 编辑
为什么Transformer块使⽤LayerNorm⽽不是BatchNorm?
摘要:个人学习使用,侵权删 参考来源: 为什么Transformer要用LayerNorm 为什么Transformer模型使用layernorm而不是batchnorm transformer 为什么使用 layer normalization,而不是其他的归一化方法?
阅读全文
posted @
2024-03-03 20:20
zhou-snaker
阅读(184)
推荐(0) 编辑
注意力机制
摘要:个人学习使用,侵权删 为什么Transformer 需要进行 Multi-head Attention? - 月来客栈的回答 - 知乎 注意力机制(Attention) transformer中为什么使用不同的K 和 Q, 为什么不能使用同一个值?
阅读全文
posted @
2024-03-01 13:38
zhou-snaker
阅读(7)
推荐(0) 编辑