摘要: GPU和CPU实现的不一样,这里贴的是CPU中的drop out 直接看caffe里面的源码吧:(产生满足伯努利分布的随机数mask,train的时候,data除以p,...... scale_ = 1. / (1. - threshold_); 阅读全文
posted @ 2017-08-24 23:55 simple_wxl 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 1、计算的均值和方差是channel的 2、test/predict 或者use_global_stats的时候,直接使用moving average use_global_stats 表示是否使用全部数据的统计值(该数据实在train 阶段通过moving average 方法计算得到)训练阶段设 阅读全文
posted @ 2017-08-24 21:36 simple_wxl 阅读(620) 评论(0) 推荐(0) 编辑