摘要:
1.理论 双向循环神经网络(BRNN)的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络(RNN),而且这两个都连接着一个输出层。 这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息 六个独特的权值在每一个时步被重复的利用,六个权值分别对应:输入到向前和向后隐含层(w1 阅读全文
摘要:
1.基本理论 双向 RNN 结合时间上从序列起点开始移动的 RNN 和另一个时间上从序列末尾开始移动的 RNN 2.逻辑图 其中 h (t) 代表通过时间向前移动的子 RNN 的状态,g (t) 代表通过时间向后移动的子 RNN 的状态 允许输出单元 o (t) 能够计算同时依赖于过去和未来且对时刻 阅读全文
摘要:
1.用于处理序列数据的神经网络 s (t) = f(s (t−1) ;θ) 2.循环神经网络 阅读全文
摘要:
1.卷积运算 卷积的第一个参数(在这个例子中,函数 x)通常叫做输入(input),第二个参数(函数 w)叫做核函数(kernel function)。 输出有时被称作特征映射(feature map) 2.动机 卷积运算通过三个重要的思想来帮助改进机器学习系统: 稀疏交互(sparseintera 阅读全文
摘要:
1.随机梯度下降 保证SGD收敛的一个充分条件是 线性衰减学习率直到第 τ 次迭代: 其中 α =k/τ 。在 τ 步迭代之后,一般使 ϵ 保持常数 通常 τ 被设为需要反复遍历训练集几百次的迭代次数。通常 ϵ τ 应设为大约 ϵ 0 的 1%。主要问题是如何设置 ϵ 0 。若 ϵ 0 太大,学习曲 阅读全文
摘要:
1.深度学习中的正则化 提高泛化能力,防止过拟合 大多数正则化策略都会对估计进行正则化,估计的正则化以偏差的增加换取方差的减少 正则化方法是在训练数据不够多时,或者over training时,常常会导致过拟合(overfitting)。这时向原始模型引入额外信息,以便防止过拟合和提高模型泛化性能的 阅读全文
摘要:
1.深度前馈网络 定义了一个映射 y = f(x;θ),并且学习参数 θ 的值,使它能够得到最佳的函数近似 2.这种模型被称为前向(feedforward) 在模型的输出和模型本身之间没有反馈(feedback)连接 3.深度(depth) 模型的层数 4.隐藏层(hidden layer) 隐藏层 阅读全文
摘要:
1.简单的配方 特定的数据集、代价函数、优化过程和模型 2.线性回归算法 X 和 y 构成的数据集 代价函数 最常见的代价函数是负对数似然,最小化代价函数导致的最大似然估计 代价函数也可能含有附加项,如正则化项 模型是 p model (y | x) = N(y;x ⊤ w + b,1) 优化算法可 阅读全文
摘要:
1.SGD 代价函数通常可以分解成每个样本的代价函数的总和 阅读全文
摘要:
1.表示 低维表示、稀疏表示和独立表示 低维表示尝试将 x 中的信息尽可能压缩在一个较小的表示中 稀疏表示将数据集嵌入到输入项大多数为零的表示中 独立表示试图分开数据分布中变化的来源,使得表示的维度是统计独立的 2.主成分分析 SVD 3.k-均值聚类 阅读全文