收集正则

过滤所有非中文非英文字符：replaceAll("[^\\u4e00-\\u9fa5|A-Za-z]", " ")

过滤标点符号：replaceAll("[\\pP‘’“”]", " ")

判断获得的每个字符的unicode编码，汉字是有范围的，具体是\u4E00-\u9FA5 和 \uF900-\uFA2D 不在这个范围中的就不是汉字。 \u表示是16进制

posted @ 2012-03-16 17:30 林氏出品阅读(155) 评论(0) 编辑收藏举报

刷新页面返回顶部

林氏出品