摘要: 0设计概述 RNN梯度爆炸和消失比较严重,RNN隐层只有一个状态h记录短期记忆,增加一个长期记忆状态c似乎就可以解决问题。 按时间维度展开 如何控制长期状态c,设计:增加三个开关,控制是否记录前一时刻的长期状态,是否把当前输入记录为长期状态单元 ,是否把当长期状态输出。 1前向计算 输入:前一个时刻 阅读全文
posted @ 2017-04-15 22:38 rongyux 阅读(619) 评论(0) 推荐(0) 编辑
摘要: 0语言模型-N-Gram 语言模型就是给定句子前面部分,预测后面缺失部分 eg.我昨天上学迟到了,老师批评了____。 N-Gram模型: ,对一句话切词 我 昨天 上学 迟到 了 ,老师 批评 了 ____。 2-N-Gram 会在语料库中找 了 后面最可能的词; 3-N-Gram 会在预料库中找 阅读全文
posted @ 2017-04-15 19:14 rongyux 阅读(4851) 评论(0) 推荐(1) 编辑
摘要: 0有全连接网络,为什么还需要CNN 图像处理领域的特殊性, 全连接网络缺点: CNN解决办法: 1参数太多 | 局部连接 2没有利用图像之间位置的信息 | 权值共享 3网络层数限制 | 下采样:pooling,只保留重要参数,提高鲁棒性 1激活函数 Relu: 图像: sigmoid图像: 相比si 阅读全文
posted @ 2017-04-15 15:40 rongyux 阅读(871) 评论(0) 推荐(0) 编辑
摘要: 构造:输入神经元个数等于输入向量维度,输出神经元个数等于输出向量维度。(x1=(1,2,3),则需要三个输入神经元 一 前向后传播 隐层: 输出层: 一般化,向量表示 二 反向传播 1计算梯度delta:均方误差,利用了sigmoid函数导数的有趣性。 输出层梯度: --> eg. 隐层梯度: -- 阅读全文
posted @ 2017-04-15 09:51 rongyux 阅读(2262) 评论(2) 推荐(1) 编辑