摘要: 过滤所有非中文非英文字符 :replaceAll("[^\\u4e00-\\u9fa5|A-Za-z]", " ") 过滤标点符号:replaceAll("[\\pP‘’“”]", " ")判断获得的每个字符的unicode编码,汉字是有范围的,具体是\u4E00-\u9FA5 和 \uF900-\uFA2D 不在这个范围中的就不是汉字。 \u表示是16进制 阅读全文
posted @ 2012-03-16 17:30 林氏出品 阅读(155) 评论(0) 推荐(0) 编辑
摘要: weka的默认字符集编码是Cp1252,所以如果你导入的数据中有中文字符,就会出现乱码的情况,所以需要修改weka的RunWeka.ini文件方法:将"fileEncoding=cp1252"替换成你的数据对应的字符集编码,比如utf-8,cp936(简体中文),cp950(繁体中文)。问题解决 阅读全文
posted @ 2012-03-16 16:44 林氏出品 阅读(1042) 评论(0) 推荐(0) 编辑