文章分类 - 深度学习
摘要:由于函数 f(x)=min(1, x)是非连续的,有哪些函数可以实现相似的功能,同时是连续函数 为了找到类似于 但又是连续的函数,我们可以考虑以下几种方法来构造: 平滑近似:使用 S 型函数 我们可以使用一些平滑函数来近似 :
阅读全文
摘要:The approximation ratio is computed on the total cost aggregated over the test set and is defined as the DROP for m
阅读全文
摘要:绘制机器学习模型的损失地形(landscape)是一项具有挑战性的任务,因为神经网络模型的参数空间通常非常高维(成千上万个甚至数百万个维度)。要在二维或三维空间中可视化这一复杂的高维损失地形,通常需要降维或简化。以下是几种常用的损失地形绘制方法: 参数扰动法(Parameter Perturbati
阅读全文
摘要:理解交叉熵 关于样本集的两个概率分布 和 ,设 为真实的分布,比如 表示当前样本属于第一类, 为拟合的分布,比如 。 按照真实分布 来衡量识别一个样本所需的编码长度的期望,即平均编码长度(信息熵): \[
阅读全文
摘要:Understanding Variational Autoencoders (VAEs) Variational Autoencoders Explained
阅读全文
摘要:互信息是信息论中用以评价两个随机变量之间的依赖程度的一个度量。 举个例子:x=今天下雨与y=今天阴天,显然在已知y的情况下, 发生x的概率会更大 在讨论 互信息 之前需要简单的了解一下信息论一些基础的相关概念。 信息量:是对某个事件发生或者变量出现的概率的度量,一般一个事件发生的概率越低,则这个事件
阅读全文
摘要:最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。
阅读全文
摘要:1.<SOS>、<BOS>、<GO>:代表一个序列的开始。 2.<EOS>:代表一个序列的结束,作为判断终止的标签。 3.<MASK>:用于遮盖句子中的一些单词。 4.<UNK>:未知字符,代表词典中没有的词。 5.<SEP>: 用于分隔两个输入句子,例如输入句子 A 和 B,要在句子 A,B 后面
阅读全文