摘要:
引用自: https://www.lizenghai.com/archives/64931.html AdamW AdamW是在Adam+L2正则化的基础上进行改进的算法。使用Adam优化带L2正则的损失并不有效。如果引入L2正则项,在计算梯度的时候会加上对正则项求梯度的结果。 那么如果本身比较大的 阅读全文
摘要:
关于抽取bert里面第几层的代码: ( #我们取零,因为据我了解,这就是[CLS]令牌... #想法是也要合并最后4层而不是最后一层,因为它太接近输出了 #层,它可能没有那么有效,因为它受到o / p的更多控制。 ) https://www.kaggle.com/c/google-quest-cha 阅读全文
摘要:
首次使用BERT的视觉指南 引用自:http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/ 在过去的几年中,用于处理语言的机器学习模型正在迅速加速发展。这一进展已经离开了研究实验室,并开始为一些领先的数字产 阅读全文
摘要:
基于中文的词的全mask 的bert做法: https://github.com/ymcui/Chinese-BERT-wwm Robert原理讲解: https://zhuanlan.zhihu.com/p/103205929 pytorch-transformer的资料库: https://gi 阅读全文
摘要:
常用中文预训练语言模型接口: https://mp.weixin.qq.com/s/v5wijUi9WgcQlr6Xwc-Pvw 接口RoBERTa中文预训练模型:RoBERTa for Chinese: https://mp.weixin.qq.com/s/K2zLEbWzDGtyOj7yceRd 阅读全文
摘要:
引用自:https://zhuanlan.zhihu.com/p/139898040 代码位置: https://github.com/google-research/electra 1、概述 在 2019 年 11 月份,NLP 大神 Manning 联合谷歌做的 ELECTRA 一经发布,迅速火 阅读全文
摘要:
TinyBERT 是华为不久前提出的一种蒸馏 BERT 的方法,模型大小不到 BERT 的 1/7,但速度能提高 9 倍。本文梳理了 TinyBERT 的模型结构,探索了其在不同业务上的表现,证明了 TinyBERT 对复杂的语义匹配任务来说是一种行之有效的压缩手段。 一、简介 在 NLP 领域,B 阅读全文
摘要:
bert每个层次的任务表现不同 https://hal.inria.fr/hal-02131630/document 讲解: https://zhuanlan.zhihu.com/p/149730830?from_voters_page=true bert 瘦身版本,基于知识蒸馏: https:// 阅读全文
摘要:
这个是bert台湾博主的讲解 https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html 这个是代码讲解: https://blog.csdn.net/cpluss/article/details/88418176 这里是自动追踪t 阅读全文
摘要:
必须要懂的交叉熵: https://cloud.tencent.com/developer/article/1539723 这部分其实就是 Transformer Encoder 部分 + BERT Embedding, 如果不熟悉 Transformer 的同学,恰好可以从此处来加深理解。 这部分 阅读全文