收集正则

   过滤所有非中文非英文字符 :replaceAll("[^\\u4e00-\\u9fa5|A-Za-z]", " ")

  过滤标点符号:replaceAll("[\\pP‘’“”]", " ")

判断获得的每个字符的unicode编码,汉字是有范围的,具体是\u4E00-\u9FA5 和 \uF900-\uFA2D 不在这个范围中的就不是汉字。 \u表示是16进制
posted @ 2012-03-16 17:30  林氏出品  阅读(155)  评论(0编辑  收藏  举报