dreamlike-zzg

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  63 随笔 :: 0 文章 :: 0 评论 :: 7648 阅读

 

优化

卷积

im2col的原理和实现
各种卷积动图
空洞卷积问题:gridding、long-range

CNN中的位置和尺度问题
分类需要低频info,定位需要高频info
分类需要平移不变性(invariance),定位需要平移相等性(equivalence)
downsample破坏平移相等性和不变性,对于平移相等性的影响更大。
微小的平移和尺度变化可能严重影响结果(我们不能简单地把系统中的平移不变性寄希望于卷积和二次采样,输入信号的平移不意味着变换系数的简单平移,除非这个平移是每个二次采样因子的倍数。)
缓解:抗锯齿bluring数据增强、减少降采样
 

softmax

 

Gumbel-Softmax Trick和Gumbel分布 

 

Normalization

模型加速

训练trick

  • fine-tune时的学习率warm-up的调整
  • L2正则化
  • Adam优化器换成SGD,lookhead优化器
  • 初始化预训练权重
  • 学习率的调整,根据BACTH SIZE来调整
  • 显存过小时候,使用平均损失来求梯度,防止单次样本太小震荡剧烈。
  • Batch_size大小的选择,不宜太大也不能太小,最好是2的指数次方
  • 图片的预处理

出现nan值的处理

  • 重新初始化
  • 梯度截断
  • 利用激活函数限幅,如:y = min(max(0,x),6)(relu6)
  • 重新清理数据集
  • 查看是否分母出现0
  • 减小学习率
posted on   梦幻济公  阅读(26)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 使用C#创建一个MCP客户端
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 按钮权限的设计及实现
点击右上角即可分享
微信分享提示