摘要: 在做主题聚类时,主要经过以下几个步骤: 1、数据清洗:因为我是基于新浪微博来做主题的,所以需要先清洗掉数据中的各种表情符号(emoji等),以及多余的符号,清洗后再去重,会发现数据量少很多。 2、分词:这里我使用的是jieba分词,并使用了专用的词典(user_dict.txt),同时网上下载了st 阅读全文
posted @ 2020-11-04 19:33 justDoIT& 阅读(3216) 评论(2) 推荐(0) 编辑