Loading

摘要: 数据集:ChnSentiCorp Htl ba 4000 ![data_content][1] 由于该数据集中的文件是分散的(一句评论一个文件),这样处理起来会比较麻烦,所以我们先要对它们进行合并: 接下来,我们进行数据预处理,这里包含了字符过滤,去停用词,分词等三个步骤: 这里使用的停用词表为: 阅读全文
posted @ 2020-03-31 23:19 云野Winfield 阅读(720) 评论(0) 推荐(0) 编辑
摘要: 首先,使用gensim提供的WikiCorpus中的get_texts将维基数据里的每篇文章转换为1行text文本,并且去掉标点符号 wiki中文数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki latest pages articles 阅读全文
posted @ 2020-03-31 22:59 云野Winfield 阅读(1050) 评论(0) 推荐(0) 编辑