会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
黄某人233
博客园
首页
新随笔
联系
订阅
管理
2021年5月4日
团队项目冲刺第三天 数据清洗 一
摘要: 数据清洗 一 数据已经取出,然后是对数据的一个清洗 其中中文文本的分类 需要分词 还需要进行 停用词的取出 以防对特征值的抽取造成过大影响 分词是为了进行特征抽取的一个词语分割 然后进行提取作用 # encoding=utf-8 #遍历文件,用ProsessofWords处理文件from imp i
阅读全文
posted @ 2021-05-04 10:08 黄某人233
阅读(248)
评论(0)
推荐(0)
编辑
公告