2017年12月19日

关于特殊字符的处理问题

摘要: 如上图所示,在处理语料的过程中,会发现语料偏乱的情况,这么乱的语料对于之后的分词等等各种处理都会严重影响效果。对于Unicode编码而言这些“黑底白字”的非正常字符一般都是编码在0-31这个范围的,注意:32就是空格了。所以通过ord()函数判断字符编码,如果在0-31之间就忽略掉。 阅读全文

posted @ 2017-12-19 22:00 法杰拉 阅读(280) 评论(0) 推荐(0) 编辑

导航