12 2018 档案

摘要:Transformer 最近看了Attention Is All You Need这篇经典论文。论文里有很多地方描述都很模糊,后来是看了参考文献里其他人的源码分析文章才算是打通整个流程。记录一下。 Transformer整体结构 数据流梳理 符号含义速查 N: batch size T: 一个句子的 阅读全文
posted @ 2018-12-20 10:26 匡子语 阅读(1232) 评论(0) 推荐(0) 编辑
摘要:Normalization(归一化) 写这一篇的原因是以前只知道一个Batch Normalization,自以为懂了。结果最近看文章,又发现一个Layer Normalization,一下就懵逼了。搞不懂这两者的区别。后来是不查不知道,一查吓一跳,Normalization的方法五花八门,Batc 阅读全文
posted @ 2018-12-19 18:36 匡子语 阅读(5979) 评论(0) 推荐(2) 编辑
摘要:BILSTM+CRF中的条件随机场 tensorflow中crf关键的两个函数是训练函数tf.contrib.crf.crf_log_likelihood和解码函数tf.contrib.crf.viterbi_decode 看着这两个函数定义,我懵逼了。在看完了李航的《统计学习方法》后,我以为我可以 阅读全文
posted @ 2018-12-03 20:55 匡子语 阅读(6238) 评论(2) 推荐(1) 编辑
摘要:CRF(条件随机场) 基本概念 1. 场是什么 场就是一个联合概率分布。比如有3个变量,y1,y2,y3, 取值范围是{0,1}。联合概率分布就是{P(y2=0|y1=0,y3=0), P(y3=0|y1=0,y2=0), P(y2=0|y1=1,y3=0), P(y3=0|y1=1,y2=0), 阅读全文
posted @ 2018-12-03 18:32 匡子语 阅读(4522) 评论(0) 推荐(1) 编辑