摘要: from:http://www.runoob.com/python/att-time-time.html 描述 Python time time() 返回当前时间的时间戳(1970纪元后经过的浮点秒数)。 语法 time()方法语法: 参数 NA。 返回值 返回当前时间的时间戳(1970纪元后经过的 阅读全文
posted @ 2017-12-07 16:20 深度学习1 阅读(987) 评论(0) 推荐(0) 编辑
摘要: 1. sys.exit(n) 退出程序引发SystemExit异常, 可以捕获异常执行些清理工作. n默认值为0, 表示正常退出. 其他都是非正常退出. 还可以sys.exit("sorry, goodbye!"); 一般主程序中使用此退出.2. os._exit(n), 直接退出, 不抛异常, 不 阅读全文
posted @ 2017-12-07 15:58 深度学习1 阅读(555) 评论(0) 推荐(0) 编辑
摘要: 一、weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂 阅读全文
posted @ 2017-12-07 11:38 深度学习1 阅读(8450) 评论(0) 推荐(0) 编辑
摘要: 1、梯度裁剪原理(http://blog.csdn.net/qq_29340857/article/details/70574528) 既然在BP过程中会产生梯度消失/爆炸(就是偏导无限接近0,导致长时记忆无法更新),那么最简单粗暴的方法,设定阈值,当梯度小于/大于阈值时,更新的梯度为阈值,如下图所 阅读全文
posted @ 2017-12-07 11:15 深度学习1 阅读(61477) 评论(3) 推荐(1) 编辑
摘要: 我这里没有详细解读这个损失函数的各个参数,仅记录一下在sru中涉及到的。 sru中代码如下 根据pytorch的官方文档 我得出的理解跟以上图片是一致的,图片来源:http://blog.csdn.net/zhangxb35/article/details/72464152?utm_source=i 阅读全文
posted @ 2017-12-07 11:03 深度学习1 阅读(27160) 评论(0) 推荐(0) 编辑
摘要: from:https://www.cnblogs.com/liuchunxiao83/p/5298016.html 使用assert断言是学习python一个非常好的习惯,python assert 断言句语格式及用法很简单。在没完善一个程序之前,我们不知道程序在哪里会出错,与其让它在运行最崩溃,不 阅读全文
posted @ 2017-12-07 09:01 深度学习1 阅读(1348) 评论(0) 推荐(0) 编辑