随笔分类 - NLP
摘要:fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择
阅读全文
摘要:https://github.com/Embedding/Chinese-Word-Vectors github上的wiki_word百度网盘资源失效了 使用这个网址给的资源 全球 Web 图标 最全中文词向量数据下载-都是训练好的优质向量
阅读全文
摘要:参考资料: 文本编码方式(词向量提取方式) 常见预训练语言模型简述 预训练语言模型汇总 预训练语言模型综述 常用预训练语言模型(PTMs)总结
阅读全文
摘要:Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系
阅读全文
摘要:注意力机制(attention) 图片展示的Encoder-Decoder框架没有体现“注意力模型”,可以把它看做是注意力不集中分心模型。因为在生成目标句子的单词时,不论生成哪个单词,它们使用的输入句子的语义编码C都是一样的,没有任何区别。而语义编码C是由原句子中的每个单词经过Encoder编码产生
阅读全文
摘要:命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是自然语言处理中的一项基础任务,应用范围非常广泛。 命名实体识别和分词、词性标注都属于序列标注问题。 所谓序列标注问题,就是给你一个字符序列,从左往右遍历每个字符,一边遍历一边对每一个字符分类,分类的体
阅读全文
摘要:LDA模型 LDA是自然语言处理中非常常用的一个主题模型,全称是隐含狄利克雷分布(Latent Dirichlet Allocation)。 作用是将文档集中每篇文档的主题以概率分布的形式给出,然后通过分析分到同一主题下的文档抽取其实际的主题(模型运行结果就是一个索引编号,通过分析,将这种编号赋予实
阅读全文
摘要:RNN 机器翻译任务:单词的先后顺序会影响句子的意义,句子间的单词数量不是一一对应的, RNN:擅长捕捉序列关系,但只能实现N2N、1toN、Nto1,不能解决N2M的问题, Sequence2sequence:包括编码器和解码器的结构,依然使用的是RNN网络 先由Encoder提取原始句子的'意义
阅读全文