08 2019 档案
摘要:弥补transformer在编码超长文本的缺陷,可编码任意长度的文本到固定长度的向量。
阅读全文
摘要:sgd,adagrad支持了自适应学习率,通过累积历史平方梯度,对学习率进行缩放达到自适应的效果;rmsprop加了一个累积值的衰减策略,adam不光加了平方梯度累积值的衰减,还加了梯度累积值的衰减。nag是带动量的sgd(nesterov+sgd),而nadam是带动量的adam。
阅读全文
摘要:bn和ln的本质区别: batch normalization是纵向归一化,在batch的方向上对同一层每一个神经元进行归一化,即同一层每个神经元具有不同的均值和方差。 layer normalization 是横向归一化,即同一层的所有神经元具有相同的均值和方差。 bn和ln的使用区别: 1.如果
阅读全文
摘要:介绍 数据 快速开始 模块
阅读全文

浙公网安备 33010602011771号