摘要: 参考这篇文章: https://www.cnblogs.com/dogecheng/p/11615750.html 我们期望每一个 word token 都有一个 embedding。每个 word token 的 embedding 依赖于它的上下文。这种方法叫做 Contextualized W 阅读全文
posted @ 2022-02-16 21:42 blcblc 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 文本生成相关文章,还不错,看一下 《文本生成系列之encoder-decoder》 https://mp.weixin.qq.com/s/ZSf5XUfq3LyjUtai2XVyAQ 文本生成是自然语言处理领域一种常见的任务,它实现了从源文本到目标文本之间的转换。 应用于包括机器翻译(Machine 阅读全文
posted @ 2022-02-16 18:04 blcblc 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 这篇文章还不错,有一些值得继续思考的地方。 《周志华教授:关于深度学习的一点思考》 https://mp.weixin.qq.com/s/DlJZII9yKtgskcjTBfZCtQ Hinton 等通过“逐层训练后联合微调”来缓解梯度消失,使人们看到训练深层神经网络是可能的,由此激发了后来的研究, 阅读全文
posted @ 2022-02-16 16:03 blcblc 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 整体回答得都比较简略,可以起到提纲挈领的作用,但是还需要继续深化。 解释Adam优化器的概念。 答:Adam结合了两个想法来改善收敛性:每个参数更新可加快收敛速度;动量可避免卡在鞍点上。 为什么必须在神经网络中引入非线性? 答:否则,我们将获得一个由多个线性函数组成的线性函数,那么就成了线性模型。线 阅读全文
posted @ 2022-02-16 15:21 blcblc 阅读(79) 评论(0) 推荐(0) 编辑