自然语言处理 - 随笔分类 - twilight0402

Transformer 结构分析

摘要：self-attetion 1. 输入 \[ X = EmbeddingLookup(X) + PositionalEncoding \\ X.shape == (batch\_size, seq\_len, embedding\_dim) \] 2. 计算Q，K，V \[ Q = Linear(X 阅读全文

posted @ 2020-07-29 23:18 twilight0402 阅读(888) 评论(0) 推荐(1)

关于Position Encoding 的理解

摘要：encoding Sinusoidal Position Encoding \[ \begin{aligned} P E_{(p o s, 2 i)} &=\sin \left(\frac{p o s}{10000^{\frac{2 i}{d_{\text {model}}}}}\right) \\ 阅读全文

posted @ 2020-07-29 18:16 twilight0402 阅读(1555) 评论(0) 推荐(1)

Dropout原理分析

摘要：工作流程 dropout用于解决过拟合，通过在每个batch中删除某些节点(cell)进行训练，从而提高模型训练的效果。通过随机化一个伯努利分布，然后于输入y进行乘法，将对应位置的cell置零。然后y再去做下一层的前向传播。 \[ \begin{aligned} r_{j}^{(l)} & \si 阅读全文

posted @ 2020-07-29 12:03 twilight0402 阅读(1199) 评论(0) 推荐(0)

各种优化器对比--BGD/SGD/MBGD/MSGD/NAG/Adagrad/Adam

摘要：指数加权平均 (exponentially weighted averges) 先说一下指数加权平均，公式如下： \[ v_{t}=\beta v_{t-1}+(1-\beta) \theta_{t} \] $\theta_t$ 是第t天的观测值 $v_t$ 是用来替代$\theta_t$ 阅读全文

posted @ 2020-07-27 11:26 twilight0402 阅读(700) 评论(0) 推荐(0)

编辑距离（Minimum Edit Distance）

摘要：编辑距离（Minimum Edit Distance，MED），也叫 Levenshtein Distance。他的含义是计算字符串a转换为字符串b的最少单字符编辑次数。编辑操作有：插入、删除、替换(都是对a进行的变换)。用lev(i, j) 表示 a的前i个单词和 b的前j个单词的最短编辑距离（即阅读全文

posted @ 2020-07-27 11:24 twilight0402 阅读(725) 评论(0) 推荐(0)

Twilight's Blog

随笔分类 - 自然语言处理

公告