摘要: 数据清洗 一 数据已经取出,然后是对数据的一个清洗 其中中文文本的分类 需要分词 还需要进行 停用词的取出 以防对特征值的抽取造成过大影响 分词是为了进行特征抽取的一个词语分割 然后进行提取作用 # encoding=utf-8 #遍历文件,用ProsessofWords处理文件from imp i 阅读全文
posted @ 2021-05-04 10:08 黄某人233 阅读(248) 评论(0) 推荐(0) 编辑