随笔分类 - 自然语言处理
摘要:self-attetion 1. 输入 2. 计算Q,K,V \[ Q = Linear(X
阅读全文
摘要:encoding Sinusoidal Position Encoding \[ \begin{aligned} P E_{(p o s, 2 i)} &=\sin \left(\frac{p o s}{10000^{\frac{2 i}{d_{\text {model}}}}}\right) \\
阅读全文
摘要:工作流程 dropout用于解决过拟合,通过在每个batch中删除某些节点(cell)进行训练,从而提高模型训练的效果。 通过随机化一个伯努利分布,然后于输入y进行乘法,将对应位置的cell置零。然后y再去做下一层的前向传播。 \[ \begin{aligned} r_{j}^{(l)} & \si
阅读全文
摘要:编辑距离(Minimum Edit Distance,MED),也叫 Levenshtein Distance。他的含义是计算字符串a转换为字符串b的最少单字符编辑次数。编辑操作有:插入、删除、替换(都是对a进行的变换)。用lev(i, j) 表示 a的前i个单词和 b的前j个单词的最短编辑距离(即
阅读全文
