摘要: 本文结合原理和源代码分析Google提出的Transformer机制 首先看一些Transformer的整体结构: inputs:[batch_size,maxlen] #maxlen表示source文本的最大长度 经过一次Embedding,首先根据隐藏节点的数目将inputs的维度变成[batc 阅读全文
posted @ 2019-12-08 15:33 blueattack 阅读(1041) 评论(0) 推荐(0) 编辑
摘要: stackoverflow上的回答: global_step指的是图表中看到的批次数。每次提供一批时,权重都会朝着使损失最小化的方向进行更新。global_step只是跟踪到目前为止看到的批次数量。在minimize()参数列表中传递变量时,变量将增加一。看一看optimizer.minimize( 阅读全文
posted @ 2019-12-08 10:59 blueattack 阅读(478) 评论(0) 推荐(0) 编辑