11 2020 档案

摘要:1、ERNIE 1.0 , XLNET, RoBERTa, ALBERT 分别基于 BERT 做了哪些改进? 答:1)ERNIE 1.0的改进:①通过实体和短语mask能够学习语法和句法信息的语言模型②在很多中文自然语言处理任务上达到SOTA训练数据集:中文维基百科、百度百科、百度贴吧、百度新闻可以 阅读全文
posted @ 2020-11-12 20:47 justDoIT& 阅读(1542) 评论(0) 推荐(0)
摘要:在做主题聚类时,主要经过以下几个步骤: 1、数据清洗:因为我是基于新浪微博来做主题的,所以需要先清洗掉数据中的各种表情符号(emoji等),以及多余的符号,清洗后再去重,会发现数据量少很多。 2、分词:这里我使用的是jieba分词,并使用了专用的词典(user_dict.txt),同时网上下载了st 阅读全文
posted @ 2020-11-04 19:33 justDoIT& 阅读(3344) 评论(2) 推荐(0)
摘要:在对pip进行升级时, python install --upgrade named pip 出现了No module named 'pip'操作,使用下述代码解决问题: python -m ensurepip 阅读全文
posted @ 2020-11-03 14:37 justDoIT& 阅读(275) 评论(0) 推荐(0)
摘要:mongo基本操作: https://www.jb51.net/article/48217.htm 阅读全文
posted @ 2020-11-03 14:34 justDoIT& 阅读(67) 评论(0) 推荐(0)