CLucene对中文文本的按字建索引与搜索
摘要:
CLucene 0.9.16版本支持中文方法 1,环境:windows平台,vc8 2,项目设置:必须设置为Use Unicode Character Set。 因为使用ANSI时,汉字存在与其他语言编码重叠的问题,在分析文本时,很难判断一个char是否是半个汉字,或者是前半个汉字还是后半个汉字。同时,CLucene对UCS2编码能够提供支持,所以VC项目直接设置为Use Unicode C... 阅读全文
posted @ 2008-06-05 23:22 cy163 阅读(1576) 评论(1) 推荐(1) 编辑