会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
小璐同学
博客园
首页
新随笔
联系
订阅
管理
2020年3月14日
中文文本处理——去除非中文字符、去除停用词、统计词频
摘要: 去除非中文字符 1 path1 = 'path1.txt' #打开需要处理的txt文件 2 path2 = 'path2.txt' #储存处理后的数据 3 f = open(path1, 'r', encoding= 'utf-8', errors= 'ignore') #将文本格式编码为utf-8
阅读全文
posted @ 2020-03-14 14:34 小璐同学
阅读(11590)
评论(0)
推荐(1)
编辑
公告