摘要:
参考:「芝麻街」Big Bird : Sparse Attention 再填新成员 背景: 原来的注意力机制复杂度高,q需要和每个key点乘,复杂度是n*n。 存在内存问题,自然也就存在token长度限制。 full attention -> small attention ? big bird = 阅读全文
摘要:
soft label:软标签,例如:probs 0.3, 0,8, 0,2... hard label:硬标签,例如:实际label值 0, 1, 2... label选择 硬标签:使用会比较多一点,用于非是即非的任务上,例如是猫就是猫,是狗就是狗; 软标签: 1. 用于模棱两可的情况; 2. 用于 阅读全文
摘要:
参考: 超越BERT、GPT,微软提出通用预训练模型MASS 微软在ICML 2019提出全新的通用预训练方法MASS,在序列到序列的自然语言生成任务中全面超越BERT和GPT。在微软参加的WMT19机器翻译比赛中,MASS帮助中-英、英-立陶宛两个语言对取得了第一名的成绩。 MASS: Maske 阅读全文
摘要:
参考: 文本比较算法Ⅰ——LD算法 文本比较算法Ⅱ——Needleman/Wunsch算法 文本比较算法Ⅲ——计算文本的相似度 文本比较算法Ⅳ——Nakatsu算法 目录: 问题 LD算法 Needleman/Wunsch算法 Nakatsu算法 问题 字符串s1 和 字符串s2 的比较算法 ==> 阅读全文
摘要:
参考:NLP重铸篇之对抗文本攻击 [ 论文源码: github ] 作者提出了一种对抗样本生成算法TEXTFOOLER。 论文中,作者使用这种方法,对文本分类与文本蕴含两种任务做了测试,成功的攻击了这两种任务的相关模型,包括:BERT,CNN,LSTM,ESIM等等。 问题定义 一个有效的样本:和原 阅读全文
摘要:
论文:Lite Transformer with Long-Short Range Attention by Wu, Liu et al. [ code in github ] LSRA特点:两组head,其中一组头部专注于局部上下文建模(通过卷积),而另一组头部专注于长距离关系建模(通过注意)。 阅读全文
摘要:
ELECTRA 与现有的生成式的语言表示学习方法相比,判别式的预训练任务具有更高的计算效率和参数效率。 计算效率:训练判别器分辨每一个 token 是否被替换,而不是 MLM 那样训练网络作为生成器预测被损坏的 15% token 的原始 token,从而使模型从所有的输入 token 中学习而不是 阅读全文
摘要:
持续更新 2020-05-28 Transformer Transformer详解 Long-Short Range Attention 论文阅读 | Lite Transformer with Long-Short Range Attention 参考: ICLR 2020趋势分析:NLP中更好& 阅读全文
摘要:
未完待续 阅读全文
摘要:
[ github 源码地址 ] 本文基于PaddlePaddle 1.7版本,解析动态图下的Transformer encoder源码实现。 Transformer的每个Encoder子层(bert_base中包含12个encoder子层)包含 2 个小子层 : Multi-Head Attenti 阅读全文