关于特殊字符的处理问题

如上图所示,在处理语料的过程中,会发现语料偏乱的情况,这么乱的语料对于之后的分词等等各种处理都会严重影响效果。对于Unicode编码而言这些“黑底白字”的非正常字符一般都是编码在0-31这个范围的,注意:32就是空格了。所以通过ord()函数判断字符编码,如果在0-31之间就忽略掉。

posted on 2017-12-19 22:00  法杰拉  阅读(280)  评论(0编辑  收藏  举报

导航