NLP - 随笔分类 - YTT77

摘要：fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择阅读全文

posted @ 2023-03-09 18:57 YTT77 阅读(25) 评论(0) 推荐(0) 编辑

摘要：https://github.com/Embedding/Chinese-Word-Vectors github上的wiki_word百度网盘资源失效了使用这个网址给的资源全球 Web 图标最全中文词向量数据下载-都是训练好的优质向量阅读全文

posted @ 2023-02-28 14:22 YTT77 阅读(22) 评论(0) 推荐(0) 编辑

常见的预训练语言模型

摘要：参考资料：文本编码方式（词向量提取方式）常见预训练语言模型简述预训练语言模型汇总预训练语言模型综述常用预训练语言模型（PTMs）总结阅读全文

posted @ 2022-11-21 21:36 YTT77 阅读(30) 评论(0) 推荐(0) 编辑

word2vec

摘要：Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系阅读全文

posted @ 2022-09-07 19:52 YTT77 阅读(95) 评论(0) 推荐(0) 编辑

Transformer-Attention is all you need

摘要：注意力机制（attention）图片展示的Encoder-Decoder框架没有体现“注意力模型”，可以把它看做是注意力不集中分心模型。因为在生成目标句子的单词时，不论生成哪个单词，它们使用的输入句子的语义编码C都是一样的，没有任何区别。而语义编码C是由原句子中的每个单词经过Encoder编码产生阅读全文

posted @ 2022-05-27 14:58 YTT77 阅读(69) 评论(0) 推荐(0) 编辑

命名实体识别

摘要：命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体识别和分词、词性标注都属于序列标注问题。所谓序列标注问题，就是给你一个字符序列，从左往右遍历每个字符，一边遍历一边对每一个字符分类，分类的体阅读全文

posted @ 2022-05-23 13:46 YTT77 阅读(355) 评论(0) 推荐(0) 编辑

经典的NLP模型

摘要：LDA模型 LDA是自然语言处理中非常常用的一个主题模型，全称是隐含狄利克雷分布（Latent Dirichlet Allocation）。作用是将文档集中每篇文档的主题以概率分布的形式给出，然后通过分析分到同一主题下的文档抽取其实际的主题（模型运行结果就是一个索引编号，通过分析，将这种编号赋予实阅读全文

posted @ 2022-05-21 22:04 YTT77 阅读(998) 评论(0) 推荐(0) 编辑

BERT的来龙去脉

摘要：RNN 机器翻译任务：单词的先后顺序会影响句子的意义，句子间的单词数量不是一一对应的， RNN：擅长捕捉序列关系，但只能实现N2N、1toN、Nto1，不能解决N2M的问题， Sequence2sequence：包括编码器和解码器的结构，依然使用的是RNN网络先由Encoder提取原始句子的'意义阅读全文

posted @ 2022-05-10 16:38 YTT77 阅读(366) 评论(0) 推荐(0) 编辑

ttyangY77

临渊羡鱼不如退而结网

随笔分类 - NLP

公告

ttyangY77

临渊羡鱼 不如退而结网

随笔分类 - NLP

公告

临渊羡鱼不如退而结网