摘要:
0 简述 Transformer最大的问题:在语言建模时的设置受到固定长度上下文的限制。 本文提出的Transformer-XL,使学习不再仅仅依赖于定长,且不破坏时间的相关性。 Transformer-XL包含segment-level 循环机制和positional编码框架。不仅可以捕捉长时依赖 阅读全文
摘要:
自我训练是一种增量算法(incremental algorithm): 场景: 半监督学习,具备一小部分有标记样本和大量未标记样本,通常存在大量样本标注困难的问题。 基本流程: 1. 最初,使用少量标记数据构建单个分类器。 2. 然后,迭代地预测未标记样本的标签。 3. 通过2中预测结果的可信程度对 阅读全文
摘要:
直推学习实际上是半监督学习的一部分。 如果用来学习的数据中未标记数据就是最终要预测的数据,那么就是直推学习; 如果不知道最后用来预测的数据是什么,就是单纯的半监督学习。 阅读全文