摘要:
在做主题聚类时,主要经过以下几个步骤: 1、数据清洗:因为我是基于新浪微博来做主题的,所以需要先清洗掉数据中的各种表情符号(emoji等),以及多余的符号,清洗后再去重,会发现数据量少很多。 2、分词:这里我使用的是jieba分词,并使用了专用的词典(user_dict.txt),同时网上下载了st 阅读全文
摘要:
在对pip进行升级时, python install --upgrade named pip 出现了No module named 'pip'操作,使用下述代码解决问题: python -m ensurepip 阅读全文
摘要:
mongo基本操作: https://www.jb51.net/article/48217.htm 阅读全文
摘要:
该问题的出现是因为windows环境不支持.compiler_so,因此我们需要配置一下windows环境,我的环境是win10+python3.7+tensorflow2.3, 1、按照 https://blog.csdn.net/qq_24800377/article/details/82857 阅读全文
摘要:
背景:我在mysql数据库中创建了一张user表,结果报了2013错误 尝试方法:试了很多,包括select * from `user`; select * from [user]; select * from db.user;,全都不管用;Mysql重启了,数据库重连了,还是不管用。 解决方法:大 阅读全文
摘要:
docker真的太厉害了,可以尝试以下: https://blog.csdn.net/qq_17818281/article/details/104839281 阅读全文
摘要:
简介 1、机器阅读理解(Machine Reading Comprehension,即MRC)是指通过阅读从文本中抽取信息并理解意义的过程。 2、MRC四大任务:完形填空,多项选择,答案抽取,自由回答 完形填空:原文中除去若干关键词,需要模型填入正确的单词或短语 多项选择:模型需要从给定的若干选项中 阅读全文
摘要:
构建词表是NLP任务中的一个基本要求,传统的方法是对各个句子进行分词,然后选取频率最高的N个词组成词表。但是这样的做法不可避免的会带来一些问题,如OOV问题,低频次/稀疏词的语义很难获取(因为没有训练)等。 为解决上述问题,提出了subword模型。该模型的划分粒度介于词与字符之间,如将"looki 阅读全文
摘要:
一、激活函数: 1、sigmoid: y = 1 / (1 + exp(-x)) 2、tanh: y = (exp(x) - exp(-x)) / (exp(x) + exp(-x)) 3、relu: y = max(0,x) 4、leaky relu: y = max(0.01x,x) 二、优化函 阅读全文
摘要:
https://www.jianshu.com/p/f7e58ead33e8 阅读全文