2022 年 3月 22 日随笔档案 - ArdenWang

2022年3月22日

摘要：正则的目的：规范模型参数，降低模型复杂度,减少过拟合 $||w||_1 = \sum_1^N |w_i|$ $||w||_2 = \sqrt {\sum_1^N |w_i|^2}$ 拉格朗日对偶角度模型经过训练后得到的W与b可能很小，也可能很大。若W与b较大，在测试数据时，$ W*X $ 阅读全文

posted @ 2022-03-22 15:23 ArdenWang 阅读(45) 评论(0) 推荐(0) 编辑

分类、回归问题Loss

摘要：分类与回归问题可选用全连接神经网络建模。隐藏层一般用ReLU激活函数。训练网络时由简单->复杂，避免严重的过拟合。多分类中间节点数不能少于类别数输出层根据问题类型选择激活函数与loss Task Activate_function Loss_function 二分类 sigmoid binary 阅读全文

posted @ 2022-03-22 13:52 ArdenWang 阅读(113) 评论(0) 推荐(0) 编辑

Transformer的相关知识

摘要： Transformer为什么需要MHSA 将模型分为多个head，形成多个子空间，可以使模型关注到不同方面的信息，最终再综合各方面信息。多次attention综合的效果可以起到增强模型的作用，也可类比CNN中同时使用多个卷积核的作用。直观上讲，MHSA利于 capture more valuab 阅读全文

posted @ 2022-03-22 09:24 ArdenWang 阅读(78) 评论(0) 推荐(0) 编辑

ArdenWang

公告