2018 年 10月 31 日随笔档案 - 白鲸123

2018年10月31日

摘要：这个问题来自于一个小伙伴，他在处理中文数据时需要先把里面的文本过滤然后分词，因为里面有许多符号，不仅是中文标点符号，还有✳，emoji等奇怪的符号。正常情况下，中文的str经过encode('utf-8')变成bytes，然后bytes经过decode('utf-8')变回中文。原始文件是txt 阅读全文

posted @ 2018-10-31 21:00 白鲸123 阅读(14049) 评论(0) 推荐(1) 编辑

白鲸123

公告