2020 年 3月 31 日随笔档案 - 云野Winfield

2020年3月31日

摘要：数据集：ChnSentiCorp Htl ba 4000 ![data_content][1] 由于该数据集中的文件是分散的（一句评论一个文件），这样处理起来会比较麻烦，所以我们先要对它们进行合并：接下来，我们进行数据预处理，这里包含了字符过滤，去停用词，分词等三个步骤：这里使用的停用词表为：阅读全文

posted @ 2020-03-31 23:19 云野Winfield 阅读(720) 评论(0) 推荐(0) 编辑

使用wiki中文数据训练词向量模型

摘要：首先，使用gensim提供的WikiCorpus中的get_texts将维基数据里的每篇文章转换为1行text文本，并且去掉标点符号 wiki中文数据下载地址：https://dumps.wikimedia.org/zhwiki/latest/zhwiki latest pages articles 阅读全文

posted @ 2020-03-31 22:59 云野Winfield 阅读(1050) 评论(0) 推荐(0) 编辑

Loading

云野Winfield

抓住本质，看大做小，持之以恒

公告