12 2018 档案
摘要:Transformer 最近看了Attention Is All You Need这篇经典论文。论文里有很多地方描述都很模糊,后来是看了参考文献里其他人的源码分析文章才算是打通整个流程。记录一下。 Transformer整体结构 数据流梳理 符号含义速查 N: batch size T: 一个句子的
阅读全文
摘要:Normalization(归一化) 写这一篇的原因是以前只知道一个Batch Normalization,自以为懂了。结果最近看文章,又发现一个Layer Normalization,一下就懵逼了。搞不懂这两者的区别。后来是不查不知道,一查吓一跳,Normalization的方法五花八门,Batc
阅读全文
摘要:BILSTM+CRF中的条件随机场 tensorflow中crf关键的两个函数是训练函数tf.contrib.crf.crf_log_likelihood和解码函数tf.contrib.crf.viterbi_decode 看着这两个函数定义,我懵逼了。在看完了李航的《统计学习方法》后,我以为我可以
阅读全文
摘要:CRF(条件随机场) 基本概念 1. 场是什么 场就是一个联合概率分布。比如有3个变量,y1,y2,y3, 取值范围是{0,1}。联合概率分布就是{P(y2=0|y1=0,y3=0), P(y3=0|y1=0,y2=0), P(y2=0|y1=1,y3=0), P(y3=0|y1=1,y2=0),
阅读全文