关于特殊字符的处理问题

如上图所示，在处理语料的过程中，会发现语料偏乱的情况，这么乱的语料对于之后的分词等等各种处理都会严重影响效果。对于Unicode编码而言这些“黑底白字”的非正常字符一般都是编码在0-31这个范围的，注意：32就是空格了。所以通过ord（）函数判断字符编码，如果在0-31之间就忽略掉。

posted on 2017-12-19 22:00 法杰拉阅读(280) 评论(0) 编辑收藏举报

刷新页面返回顶部