山竹小果 - 博客园

2020年8月6日

稀疏注意力 | Big Bird: Transformers for Longer Sequences

摘要：参考：「芝麻街」Big Bird : Sparse Attention 再填新成员背景：原来的注意力机制复杂度高，q需要和每个key点乘，复杂度是n*n。存在内存问题，自然也就存在token长度限制。 full attention -> small attention ? big bird = 阅读全文

posted @ 2020-08-06 15:37 山竹小果阅读(1366) 评论(0) 推荐(0) 编辑

2020年7月31日

label 选择： soft label or hard label？

摘要： soft label：软标签，例如：probs 0.3, 0,8, 0,2... hard label：硬标签，例如：实际label值 0, 1, 2... label选择硬标签：使用会比较多一点，用于非是即非的任务上，例如是猫就是猫，是狗就是狗；软标签： 1. 用于模棱两可的情况； 2. 用于阅读全文

posted @ 2020-07-31 12:14 山竹小果阅读(7063) 评论(0) 推荐(0) 编辑

2020年6月28日

预训练模型 | MASS：更适合seq2seq类任务

摘要：参考：超越BERT、GPT，微软提出通用预训练模型MASS 微软在ICML 2019提出全新的通用预训练方法MASS，在序列到序列的自然语言生成任务中全面超越BERT和GPT。在微软参加的WMT19机器翻译比赛中，MASS帮助中-英、英-立陶宛两个语言对取得了第一名的成绩。 MASS: Maske 阅读全文

posted @ 2020-06-28 16:44 山竹小果阅读(1154) 评论(0) 推荐(0) 编辑

2020年6月8日

文本相似度计算/文本比较算法

摘要：参考：文本比较算法Ⅰ——LD算法文本比较算法Ⅱ——Needleman/Wunsch算法文本比较算法Ⅲ——计算文本的相似度文本比较算法Ⅳ——Nakatsu算法目录：问题 LD算法 Needleman/Wunsch算法 Nakatsu算法问题字符串s1 和字符串s2 的比较算法 ==> 阅读全文

posted @ 2020-06-08 21:12 山竹小果阅读(2845) 评论(0) 推荐(2) 编辑

2020年6月3日

论文阅读 | Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment

摘要：参考：NLP重铸篇之对抗文本攻击 [ 论文源码： github ] 作者提出了一种对抗样本生成算法TEXTFOOLER。论文中，作者使用这种方法，对文本分类与文本蕴含两种任务做了测试，成功的攻击了这两种任务的相关模型，包括：BERT,CNN,LSTM,ESIM等等。问题定义一个有效的样本：和原阅读全文

posted @ 2020-06-03 14:36 山竹小果阅读(1474) 评论(0) 推荐(0) 编辑

2020年5月28日

论文阅读 | Lite Transformer with Long-Short Range Attention

摘要：论文：Lite Transformer with Long-Short Range Attention by Wu, Liu et al. [ code in github ] LSRA特点：两组head，其中一组头部专注于局部上下文建模(通过卷积)，而另一组头部专注于长距离关系建模(通过注意)。阅读全文

posted @ 2020-05-28 12:51 山竹小果阅读(1888) 评论(0) 推荐(0) 编辑

2020年5月25日

预训练模型 | ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately

摘要： ELECTRA 与现有的生成式的语言表示学习方法相比，判别式的预训练任务具有更高的计算效率和参数效率。计算效率：训练判别器分辨每一个 token 是否被替换，而不是 MLM 那样训练网络作为生成器预测被损坏的 15% token 的原始 token，从而使模型从所有的输入 token 中学习而不是阅读全文

posted @ 2020-05-25 21:23 山竹小果阅读(741) 评论(0) 推荐(0) 编辑

Transformer 及其家族( Transformer-XL, Reformer... )

摘要：持续更新 2020-05-28 Transformer Transformer详解 Long-Short Range Attention 论文阅读 | Lite Transformer with Long-Short Range Attention 参考： ICLR 2020趋势分析：NLP中更好& 阅读全文

posted @ 2020-05-25 20:23 山竹小果阅读(632) 评论(0) 推荐(1) 编辑

持续更新

摘要：未完待续阅读全文

posted @ 2020-05-25 20:09 山竹小果阅读(850) 评论(0) 推荐(1) 编辑

PaddlePaddle Transformer encoder 源码解析

摘要： [ github 源码地址 ] 本文基于PaddlePaddle 1.7版本，解析动态图下的Transformer encoder源码实现。 Transformer的每个Encoder子层（bert_base中包含12个encoder子层）包含 2 个小子层： Multi-Head Attenti 阅读全文

posted @ 2020-05-25 10:13 山竹小果阅读(1467) 评论(0) 推荐(0) 编辑

公告