上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 233 下一页
摘要: 今天读的这篇文章: 《图解BERT模型:从零开始构建BERT》 https://cloud.tencent.com/developer/article/1389555 单文本分类任务:对于文本分类任务,BERT模型在文本前插入一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,用于文 阅读全文
posted @ 2022-02-17 16:17 blcblc 阅读(379) 评论(0) 推荐(0) 编辑
摘要: 参考这篇文章: https://www.cnblogs.com/dogecheng/p/11615750.html 我们期望每一个 word token 都有一个 embedding。每个 word token 的 embedding 依赖于它的上下文。这种方法叫做 Contextualized W 阅读全文
posted @ 2022-02-16 21:42 blcblc 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 文本生成相关文章,还不错,看一下 《文本生成系列之encoder-decoder》 https://mp.weixin.qq.com/s/ZSf5XUfq3LyjUtai2XVyAQ 文本生成是自然语言处理领域一种常见的任务,它实现了从源文本到目标文本之间的转换。 应用于包括机器翻译(Machine 阅读全文
posted @ 2022-02-16 18:04 blcblc 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 这篇文章还不错,有一些值得继续思考的地方。 《周志华教授:关于深度学习的一点思考》 https://mp.weixin.qq.com/s/DlJZII9yKtgskcjTBfZCtQ Hinton 等通过“逐层训练后联合微调”来缓解梯度消失,使人们看到训练深层神经网络是可能的,由此激发了后来的研究, 阅读全文
posted @ 2022-02-16 16:03 blcblc 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 整体回答得都比较简略,可以起到提纲挈领的作用,但是还需要继续深化。 解释Adam优化器的概念。 答:Adam结合了两个想法来改善收敛性:每个参数更新可加快收敛速度;动量可避免卡在鞍点上。 为什么必须在神经网络中引入非线性? 答:否则,我们将获得一个由多个线性函数组成的线性函数,那么就成了线性模型。线 阅读全文
posted @ 2022-02-16 15:21 blcblc 阅读(79) 评论(0) 推荐(0) 编辑
摘要: PLM:Pretrained Language Model NLG:Natural Language Generation 这篇文章从把文本生成的方法分成了三类:输入编码、模型设计、优化方法。 同时还从数据、模型、优化三个层面列出了文本生成的一些其他挑战。 N-Gram Overlap:BLEU、R 阅读全文
posted @ 2022-02-15 21:25 blcblc 阅读(222) 评论(0) 推荐(0) 编辑
摘要: OOV(Out of Vocabulary)问题 NLP相对是应用科学,并不是特别的数学。但是我们天天用的算法的基本数学逻辑我认为还是需要搞懂,比如dropout, 比如天天用到的优化(SGD, momentum, adaboost, adagrad),比如各种 batch, layer norma 阅读全文
posted @ 2022-02-15 16:56 blcblc 阅读(41) 评论(0) 推荐(0) 编辑
摘要: Focal Loss for Dense Object Detection 是ICCV2017的Best student paper,文章思路很简单但非常具有开拓性意义,效果也非常令人称赞。 GHM(gradient harmonizing mechanism) 发表于 “Gradient Harm 阅读全文
posted @ 2022-02-15 12:06 blcblc 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 这张图比较直观 当学习率设置的过小时,收敛过程将变得十分缓慢。而当学习率设置的过大时,梯度可能会在最小值附近来回震荡,甚至可能无法收敛。 下面来了解一些学习率调整的方法。 2.1 离散下降(discrete staircase) 对于深度学习来说,每 𝑡t 轮学习,学习率减半。对于监督学习来说,初 阅读全文
posted @ 2022-02-14 22:30 blcblc 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 这篇文章的一些笔记摘要 《细粒度情感分析在到餐场景中的应用》 https://tech.meituan.com/2021/12/09/meituan-aspect-based-sentiment-analysis-daodian.html 大规模预训练模型(BERT)、提示学习(Prompt)等 N 阅读全文
posted @ 2022-02-14 12:02 blcblc 阅读(183) 评论(0) 推荐(0) 编辑
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 233 下一页