2020 年 10月 28 日随笔档案 - sunshine丶23

2020年10月28日

摘要： albert相对BERT而言主要有三个改进方向： 1、对Embedding因式分解在BERT中，词向量维度E和隐层维度H是相等的。而词嵌入学习的是单词与上下文无关的表示，而隐层则是学习与上下文相关的表示。显然后者更加复杂，需要更多的参数，也就是说模型应当增大隐层大小，或者说满足。在实际中，词表阅读全文

posted @ 2020-10-28 15:58 sunshine丶23 阅读(191) 评论(0) 推荐(0) 编辑

sunshine丶23

公告