随笔分类 -  NLP

摘要:神经网络语言模型综述(译) https://zhuanlan.zhihu.com/p/109564205 原文: https://arxiv.org/pdf/1906.03591.pdf 链接:https://zhuanlan.zhihu.com/p/117450353 阅读全文
posted @ 2020-12-30 19:52 静悟生慧 阅读(116) 评论(0) 推荐(0) 编辑
摘要:一、概述GloVe与word2vec GloVe与word2vec,两个模型都可以根据词汇的“共现co-occurrence”信息,将词汇编码成一个向量(所谓共现,即语料中词汇一块出现的频率)。 两者最直观的区别在于,word2vec是“predictive”的模型,而GloVe是“count-ba 阅读全文
posted @ 2020-11-11 14:29 静悟生慧 阅读(3629) 评论(0) 推荐(0) 编辑
摘要:使用python进行自然语言处理,有一些第三方库供大家使用: ·NLTK(Python自然语言工具包)用于诸如标记化、词形还原、词干化、解析、POS标注等任务。该库具有几乎所有NLP任务的工具。 ·Spacy是NLTK的主要竞争对手。这两个库可用于相同的任务。 ·Scikit-learn为机器学习提 阅读全文
posted @ 2020-04-09 17:51 静悟生慧 阅读(2031) 评论(0) 推荐(0) 编辑
摘要:使用Multi-head Self-Attention进行自动特征学习的CTR模型 https://blog.csdn.net/u012151283/article/details/85310370 nlp中的Attention注意力机制+Transformer详解 https://zhuanlan 阅读全文
posted @ 2019-10-15 16:02 静悟生慧 阅读(1190) 评论(0) 推荐(0) 编辑
摘要:multi-head attention ■ 论文 | Attention Is All You Need ■ 链接 | https://www.paperweekly.site/papers/224 ■ 源码 | https://github.com/Kyubyong/transformer ■ 阅读全文
posted @ 2019-10-15 14:43 静悟生慧 阅读(1419) 评论(0) 推荐(0) 编辑
摘要:1、不同类别文本量统计,类别不平衡差异 2、文本长度统计 3、文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度。因此,他们对数据进行繁体转简体的处理。 同时,过滤掉了对分类没有任何作用的停用词,从而降低了噪声。 4、上文提到训练数据中,存在严重的样本不均衡问题,如果不对该问题做针对性的 阅读全文
posted @ 2019-07-02 15:47 静悟生慧 阅读(2417) 评论(0) 推荐(0) 编辑
摘要:介绍 随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(automatic text summarization)则提供了一个高效的解决方案。 根据Radev的定义[3], 阅读全文
posted @ 2019-06-06 21:08 静悟生慧 阅读(8516) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示