随笔分类 - NLP
摘要:神经网络语言模型综述(译) https://zhuanlan.zhihu.com/p/109564205 原文: https://arxiv.org/pdf/1906.03591.pdf 链接:https://zhuanlan.zhihu.com/p/117450353
阅读全文
摘要:一、概述GloVe与word2vec GloVe与word2vec,两个模型都可以根据词汇的“共现co-occurrence”信息,将词汇编码成一个向量(所谓共现,即语料中词汇一块出现的频率)。 两者最直观的区别在于,word2vec是“predictive”的模型,而GloVe是“count-ba
阅读全文
摘要:使用python进行自然语言处理,有一些第三方库供大家使用: ·NLTK(Python自然语言工具包)用于诸如标记化、词形还原、词干化、解析、POS标注等任务。该库具有几乎所有NLP任务的工具。 ·Spacy是NLTK的主要竞争对手。这两个库可用于相同的任务。 ·Scikit-learn为机器学习提
阅读全文
摘要:使用Multi-head Self-Attention进行自动特征学习的CTR模型 https://blog.csdn.net/u012151283/article/details/85310370 nlp中的Attention注意力机制+Transformer详解 https://zhuanlan
阅读全文
摘要:multi-head attention ■ 论文 | Attention Is All You Need ■ 链接 | https://www.paperweekly.site/papers/224 ■ 源码 | https://github.com/Kyubyong/transformer ■
阅读全文
摘要:1、不同类别文本量统计,类别不平衡差异 2、文本长度统计 3、文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度。因此,他们对数据进行繁体转简体的处理。 同时,过滤掉了对分类没有任何作用的停用词,从而降低了噪声。 4、上文提到训练数据中,存在严重的样本不均衡问题,如果不对该问题做针对性的
阅读全文
摘要:介绍 随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(automatic text summarization)则提供了一个高效的解决方案。 根据Radev的定义[3],
阅读全文