摘要: 这个问题来自于一个小伙伴,他在处理中文数据时需要先把里面的文本过滤然后分词,因为里面有许多符号,不仅是中文标点符号,还有✳,emoji等奇怪的符号。 正常情况下,中文的str经过encode('utf-8')变成bytes,然后bytes经过decode('utf-8')变回中文。 原始文件是txt 阅读全文
posted @ 2018-10-31 21:00 白鲸123 阅读(14010) 评论(0) 推荐(1) 编辑