摘要:
数据集:ChnSentiCorp Htl ba 4000 ![data_content][1] 由于该数据集中的文件是分散的(一句评论一个文件),这样处理起来会比较麻烦,所以我们先要对它们进行合并: 接下来,我们进行数据预处理,这里包含了字符过滤,去停用词,分词等三个步骤: 这里使用的停用词表为: 阅读全文
摘要:
首先,使用gensim提供的WikiCorpus中的get_texts将维基数据里的每篇文章转换为1行text文本,并且去掉标点符号 wiki中文数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki latest pages articles 阅读全文