随笔分类 -  NLP

摘要:看了这篇文章: https://blog.csdn.net/enter89/article/details/86010470 《LTP 依存句法分析》 讲得还可以。 https://www.jianshu.com/p/1b750c4cd792 《基于LTP的分句、分词、POS和依存句法分析》 这里有 阅读全文
posted @ 2022-06-21 17:51 blcblc 阅读(139) 评论(0) 推荐(0) 编辑
摘要:https://mp.weixin.qq.com/s/IcI5lFfx8M5HT6N8HxlnaA 《实战必备!文本分类中的一些经验和 tricks》 阅读全文
posted @ 2022-06-17 16:45 blcblc 阅读(83) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2022-06-13 23:13 blcblc 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2022-06-09 01:47 blcblc 阅读(0) 评论(0) 推荐(0) 编辑
摘要:https://mp.weixin.qq.com/s/MHm7AxmcuEgFR_oNbNqFkQ 参考这篇文章 BERT预训练方法 BERT 模型使用两个预训练目标来完成文本内容特征的学习。 掩藏语言模型(Masked Language Model,MLM)通过将单词掩盖,从而学习其上下文内容特征 阅读全文
posted @ 2022-05-26 01:50 blcblc 阅读(93) 评论(0) 推荐(0) 编辑
摘要:2021年NLP书籍 https://mp.weixin.qq.com/s?__biz=MzAxMTk4NDkwNw==&mid=2247485513&idx=1&sn=395321ff60106db9be0eea63c5a50043&chksm=9bb9812dacce083b0450a568a3 阅读全文
posted @ 2022-05-05 01:13 blcblc 阅读(32) 评论(0) 推荐(0) 编辑
摘要:DSSM中的负样本为什么是随机采样得到的,而不用“曝光未点击”当负样本? 召回是将用户可能喜欢的item,和用户根本不感兴趣的海量item分离开来,他面临的数据环境相对于排序来说是鱼龙混杂的。 所以我们希望召回训练数据的正样本是user和item匹配度最高的那些样本,也即用户点击样本,负样本是use 阅读全文
posted @ 2022-05-03 22:34 blcblc 阅读(321) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2022-05-03 01:22 blcblc 阅读(0) 评论(0) 推荐(0) 编辑
摘要:参考这篇文章: https://blog.csdn.net/weixin_38278334/article/details/82971752 fit,transform,fit_transform常用情况分为两大类1. 数据预处理中方法fit(): Method calculates the par 阅读全文
posted @ 2022-03-07 21:16 blcblc 阅读(359) 评论(0) 推荐(0) 编辑
摘要:参考这篇文章: https://mp.weixin.qq.com/s?__biz=MzI1OTYwNDE2Mg==&mid=2247483753&idx=1&sn=acec759cf688e21660b61e791986bfac&chksm=ea772ac4dd00a3d239995c8e6b9e8 阅读全文
posted @ 2022-03-07 12:03 blcblc 阅读(75) 评论(0) 推荐(0) 编辑
摘要:接上一篇文章: https://www.cnblogs.com/charlesblc/p/15965479.html 今天重点看这篇文章: https://mp.weixin.qq.com/s/tKfHq49heakvjM0EVQPgHw Distilled BiLSTM/BERT-PKD/Dist 阅读全文
posted @ 2022-03-06 21:57 blcblc 阅读(608) 评论(0) 推荐(0) 编辑
摘要:参考这篇文章: https://zhuanlan.zhihu.com/p/24337627 有研究表明深度模型具有较大的信息参数冗余。因此我们可以通过一定的技术方法对复杂的模型进行去冗余压缩。现有的压缩方法主要可以下四类: 浅层网络:通过设计一个更浅(层数较少)结构更紧凑的网络来实现对复杂模型效果的 阅读全文
posted @ 2022-03-04 17:55 blcblc 阅读(95) 评论(0) 推荐(0) 编辑
摘要:前几天断更了,现在根据阅读的材料进行一些补充。 模型驱动 + 数据驱动 = 自然语言表示学习 sentiment classification entity extraction translation topic modeling 深度学习 = 表示学习 + 浅层学习 分布式表示:压缩、低维、稠密 阅读全文
posted @ 2022-03-04 17:18 blcblc 阅读(32) 评论(0) 推荐(0) 编辑
摘要:注意力机制中的软和硬 注意力机制是当前深度学习领域比较流行的一个概念。其模仿人的视觉注意力模式,每次只关注与当前任务最相关的源域信息,使得信息的索取更为高效。 注意力机制已在语言模型、图像标注等诸多领域取得了突破进展。 注意力机制可分为软和硬两类: 软性注意力(Soft Attention)机制是指 阅读全文
posted @ 2022-03-04 16:49 blcblc 阅读(950) 评论(0) 推荐(0) 编辑
摘要:这篇文章讲得还不错: https://blog.csdn.net/weixin_42446330/article/details/86710838 《Encoder-Decoder框架、Attention、Transformer、ELMO、GPT、Bert学习总结》 里面有一些点可以注意: 引入类似 阅读全文
posted @ 2022-02-23 16:04 blcblc 阅读(510) 评论(0) 推荐(0) 编辑
摘要:今天读的这篇文章: 《图解BERT模型:从零开始构建BERT》 https://cloud.tencent.com/developer/article/1389555 单文本分类任务:对于文本分类任务,BERT模型在文本前插入一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,用于文 阅读全文
posted @ 2022-02-17 16:17 blcblc 阅读(445) 评论(0) 推荐(0) 编辑
摘要:参考这篇文章: https://www.cnblogs.com/dogecheng/p/11615750.html 我们期望每一个 word token 都有一个 embedding。每个 word token 的 embedding 依赖于它的上下文。这种方法叫做 Contextualized W 阅读全文
posted @ 2022-02-16 21:42 blcblc 阅读(119) 评论(0) 推荐(0) 编辑
摘要:文本生成相关文章,还不错,看一下 《文本生成系列之encoder-decoder》 https://mp.weixin.qq.com/s/ZSf5XUfq3LyjUtai2XVyAQ 文本生成是自然语言处理领域一种常见的任务,它实现了从源文本到目标文本之间的转换。 应用于包括机器翻译(Machine 阅读全文
posted @ 2022-02-16 18:04 blcblc 阅读(152) 评论(0) 推荐(0) 编辑
摘要:PLM:Pretrained Language Model NLG:Natural Language Generation 这篇文章从把文本生成的方法分成了三类:输入编码、模型设计、优化方法。 同时还从数据、模型、优化三个层面列出了文本生成的一些其他挑战。 N-Gram Overlap:BLEU、R 阅读全文
posted @ 2022-02-15 21:25 blcblc 阅读(240) 评论(0) 推荐(0) 编辑
摘要:这篇文章的一些笔记摘要 《细粒度情感分析在到餐场景中的应用》 https://tech.meituan.com/2021/12/09/meituan-aspect-based-sentiment-analysis-daodian.html 大规模预训练模型(BERT)、提示学习(Prompt)等 N 阅读全文
posted @ 2022-02-14 12:02 blcblc 阅读(207) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示