随笔分类 -  NLP

摘要:fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择 阅读全文
posted @ 2023-03-09 18:57 YTT77 阅读(25) 评论(0) 推荐(0) 编辑
摘要:https://github.com/Embedding/Chinese-Word-Vectors github上的wiki_word百度网盘资源失效了 使用这个网址给的资源 全球 Web 图标 最全中文词向量数据下载-都是训练好的优质向量 阅读全文
posted @ 2023-02-28 14:22 YTT77 阅读(22) 评论(0) 推荐(0) 编辑
摘要:参考资料: 文本编码方式(词向量提取方式) 常见预训练语言模型简述 预训练语言模型汇总 预训练语言模型综述 常用预训练语言模型(PTMs)总结 阅读全文
posted @ 2022-11-21 21:36 YTT77 阅读(30) 评论(0) 推荐(0) 编辑
摘要:Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系 阅读全文
posted @ 2022-09-07 19:52 YTT77 阅读(95) 评论(0) 推荐(0) 编辑
摘要:注意力机制(attention) 图片展示的Encoder-Decoder框架没有体现“注意力模型”,可以把它看做是注意力不集中分心模型。因为在生成目标句子的单词时,不论生成哪个单词,它们使用的输入句子的语义编码C都是一样的,没有任何区别。而语义编码C是由原句子中的每个单词经过Encoder编码产生 阅读全文
posted @ 2022-05-27 14:58 YTT77 阅读(69) 评论(0) 推荐(0) 编辑
摘要:命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是自然语言处理中的一项基础任务,应用范围非常广泛。 命名实体识别和分词、词性标注都属于序列标注问题。 所谓序列标注问题,就是给你一个字符序列,从左往右遍历每个字符,一边遍历一边对每一个字符分类,分类的体 阅读全文
posted @ 2022-05-23 13:46 YTT77 阅读(355) 评论(0) 推荐(0) 编辑
摘要:LDA模型 LDA是自然语言处理中非常常用的一个主题模型,全称是隐含狄利克雷分布(Latent Dirichlet Allocation)。 作用是将文档集中每篇文档的主题以概率分布的形式给出,然后通过分析分到同一主题下的文档抽取其实际的主题(模型运行结果就是一个索引编号,通过分析,将这种编号赋予实 阅读全文
posted @ 2022-05-21 22:04 YTT77 阅读(998) 评论(0) 推荐(0) 编辑
摘要:RNN 机器翻译任务:单词的先后顺序会影响句子的意义,句子间的单词数量不是一一对应的, RNN:擅长捕捉序列关系,但只能实现N2N、1toN、Nto1,不能解决N2M的问题, Sequence2sequence:包括编码器和解码器的结构,依然使用的是RNN网络 先由Encoder提取原始句子的'意义 阅读全文
posted @ 2022-05-10 16:38 YTT77 阅读(366) 评论(0) 推荐(0) 编辑