2024 年 3月随笔档案 - zhou-snaker

SVM

摘要：内容来源网络，侵权删 Python3《机器学习实战》学习笔记（八）：支持向量机原理篇之手撕线性SVM 支持向量机（SVM）——原理篇 SVM分类器原理详解阅读全文

posted @ 2024-03-29 12:40 zhou-snaker 阅读(4) 评论(0) 推荐(0) 编辑

摘要：个人学习使用，侵权删 word2vec中的负采样与分层softmax - 向阳树的文章 - 知乎 Word2Vec教程-Negative Sampling 负采样阅读全文

posted @ 2024-03-15 16:29 zhou-snaker 阅读(8) 评论(0) 推荐(0) 编辑

摘要：个人学习使用，侵权删参考资料：深度学习模型压缩技术阅读全文

posted @ 2024-03-07 14:16 zhou-snaker 阅读(7) 评论(0) 推荐(0) 编辑

np问题

摘要：个人学习使用，侵权删 np问题阅读全文

posted @ 2024-03-07 14:09 zhou-snaker 阅读(3) 评论(0) 推荐(0) 编辑

摘要：个人学习使用，侵权删参考资料： L1,L2,L0区别，为什么可以防止过拟合 L1正则化及其稀疏性解释深度学习训练中是否有必要使用L1获得稀疏解? 阅读全文

posted @ 2024-03-07 13:41 zhou-snaker 阅读(7) 评论(0) 推荐(0) 编辑

摘要：个人学习使用，侵权删【集成学习】：bagging和boosting算法及对比阅读全文

posted @ 2024-03-06 14:02 zhou-snaker 阅读(2) 评论(0) 推荐(0) 编辑

摘要：个人学习使用,侵权删参考连接: 为什么 Bert 的三个 Embedding 可以进行相加? 阅读全文

posted @ 2024-03-04 15:05 zhou-snaker 阅读(9) 评论(0) 推荐(0) 编辑

摘要：个人学习使用，侵权删参考连接：生成式预训练模型：UniLM、BART、T5、GPT 阅读全文

posted @ 2024-03-04 11:16 zhou-snaker 阅读(6) 评论(0) 推荐(0) 编辑

摘要：个人学习使用，侵权删参考来源：为什么Transformer要用LayerNorm 为什么Transformer模型使用layernorm而不是batchnorm transformer 为什么使用 layer normalization，而不是其他的归一化方法？阅读全文

posted @ 2024-03-03 20:20 zhou-snaker 阅读(184) 评论(0) 推荐(0) 编辑

注意力机制

摘要：个人学习使用，侵权删为什么Transformer 需要进行 Multi-head Attention？ - 月来客栈的回答 - 知乎注意力机制（Attention） transformer中为什么使用不同的K 和 Q，为什么不能使用同一个值？阅读全文

posted @ 2024-03-01 13:38 zhou-snaker 阅读(7) 评论(0) 推荐(0) 编辑