会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
白鲸123
博客园
首页
新随笔
联系
管理
订阅
2018年10月31日
Python读写txt文件时的编码问题
摘要: 这个问题来自于一个小伙伴,他在处理中文数据时需要先把里面的文本过滤然后分词,因为里面有许多符号,不仅是中文标点符号,还有✳,emoji等奇怪的符号。 正常情况下,中文的str经过encode('utf-8')变成bytes,然后bytes经过decode('utf-8')变回中文。 原始文件是txt
阅读全文
posted @ 2018-10-31 21:00 白鲸123
阅读(14049)
评论(0)
推荐(1)
编辑
公告