摘要:
门控循环单元(GRU): 背景: 当时间步数较大或者时间步数较小的时候,循环神经网络的梯度较容易出现衰减或者爆炸。虽然裁剪梯度可以应对梯度爆炸, 但是无法解决梯度衰减的问题。正因为如此,循环神经网络在实际中难以捕捉时间序列中的时间步较大的依赖的关系。门控循环 神经网络的提出,真是为了更好地捕捉时间序 阅读全文
摘要:
语言模型: 语言模型是自然语言处理中的重要技术,其描述的是一段话的流畅度,给定一个一个长度为 T 的词的序列w1、w2、.....、wt,语言模型将计算该序列的概率: 语言模型可用于提升语音识别和机器翻译的性能。例如,在机器翻译中,如果对英文 “ you go first ” 逐词翻译成中文的话,可 阅读全文