摘要: 统计自然语言处理统计自然语言处理基础自然语言处理综论 阅读全文
posted @ 2014-06-24 14:27 logx 阅读(135) 评论(0) 推荐(0) 编辑
摘要: Java判断一个字符串是否有中文一般情况是利用Unicode编码(CJK统一汉字的编码区间:0x4e00–0x9fbb)的正则来做判断,但是其实这个区间来判断中文不是非常精确,因为有些中文的标点符号比如:,。等等是不能识别的。以下是比较完善的判断方法:CharUtil.javahttp://www.... 阅读全文
posted @ 2014-06-24 13:36 logx 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版对于这次研究的unicode把编码分为以下几个平面(英... 阅读全文
posted @ 2014-06-24 13:33 logx 阅读(2111) 评论(0) 推荐(0) 编辑