TFknight

2020年8月3日

摘要：引用自： https://www.lizenghai.com/archives/64931.html AdamW AdamW是在Adam+L2正则化的基础上进行改进的算法。使用Adam优化带L2正则的损失并不有效。如果引入L2正则项，在计算梯度的时候会加上对正则项求梯度的结果。那么如果本身比较大的阅读全文

posted @ 2020-08-03 12:00 TFknight 阅读(16474) 评论(0) 推荐(3) 编辑

2020年7月31日

kaggle google Quest比赛代码阅读笔记

摘要：关于抽取bert里面第几层的代码: ( ＃我们取零，因为据我了解，这就是[CLS]令牌... ＃想法是也要合并最后4层而不是最后一层，因为它太接近输出了＃层，它可能没有那么有效，因为它受到o / p的更多控制。 ) https://www.kaggle.com/c/google-quest-cha 阅读全文

posted @ 2020-07-31 11:55 TFknight 阅读(322) 评论(0) 推荐(0) 编辑

2020年7月22日

BERT的快速入门|可视化介绍-清晰明了

摘要：首次使用BERT的视觉指南引用自：http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/ 在过去的几年中，用于处理语言的机器学习模型正在迅速加速发展。这一进展已经离开了研究实验室，并开始为一些领先的数字产阅读全文

posted @ 2020-07-22 11:22 TFknight 阅读(2669) 评论(0) 推荐(1) 编辑

2020年7月21日

##关于bert的资源汇总##

摘要：基于中文的词的全mask 的bert做法： https://github.com/ymcui/Chinese-BERT-wwm Robert原理讲解： https://zhuanlan.zhihu.com/p/103205929 pytorch-transformer的资料库： https://gi 阅读全文

posted @ 2020-07-21 14:30 TFknight 阅读(280) 评论(0) 推荐(0) 编辑

Roberta的原理介绍

摘要：常用中文预训练语言模型接口： https://mp.weixin.qq.com/s/v5wijUi9WgcQlr6Xwc-Pvw 接口RoBERTa中文预训练模型：RoBERTa for Chinese： https://mp.weixin.qq.com/s/K2zLEbWzDGtyOj7yceRd 阅读全文

posted @ 2020-07-21 10:31 TFknight 阅读(1769) 评论(0) 推荐(1) 编辑

2020年7月20日

超越 BERT 模型的 ELECTRA 代码解读

摘要：引用自：https://zhuanlan.zhihu.com/p/139898040 代码位置： https://github.com/google-research/electra 1、概述在 2019 年 11 月份，NLP 大神 Manning 联合谷歌做的 ELECTRA 一经发布，迅速火阅读全文

posted @ 2020-07-20 09:59 TFknight 阅读(677) 评论(1) 推荐(0) 编辑

TinyBert的原理讲解

摘要： TinyBERT 是华为不久前提出的一种蒸馏 BERT 的方法，模型大小不到 BERT 的 1/7，但速度能提高 9 倍。本文梳理了 TinyBERT 的模型结构，探索了其在不同业务上的表现，证明了 TinyBERT 对复杂的语义匹配任务来说是一种行之有效的压缩手段。一、简介在 NLP 领域，B 阅读全文

posted @ 2020-07-20 09:28 TFknight 阅读(5068) 评论(0) 推荐(1) 编辑

2020年7月10日

bert 压缩优化方向的论文

摘要： bert每个层次的任务表现不同 https://hal.inria.fr/hal-02131630/document 讲解： https://zhuanlan.zhihu.com/p/149730830?from_voters_page=true bert 瘦身版本，基于知识蒸馏： https:// 阅读全文

posted @ 2020-07-10 11:08 TFknight 阅读(227) 评论(0) 推荐(0) 编辑

2020年7月9日

bert 编程入门| bert 瘦身技巧

摘要：这个是bert台湾博主的讲解 https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html 这个是代码讲解： https://blog.csdn.net/cpluss/article/details/88418176 这里是自动追踪t 阅读全文

posted @ 2020-07-09 14:37 TFknight 阅读(1305) 评论(0) 推荐(0) 编辑

2020年7月8日

Bert原理 | Bert油管视频学习法

摘要：必须要懂的交叉熵： https://cloud.tencent.com/developer/article/1539723 这部分其实就是 Transformer Encoder 部分 + BERT Embedding，如果不熟悉 Transformer 的同学，恰好可以从此处来加深理解。这部分阅读全文

posted @ 2020-07-08 16:50 TFknight 阅读(362) 评论(0) 推荐(0) 编辑

说做过的事，做说过的话

公告