Solr+ik分词支持特殊符号分词
在工具类(CharacterUtil.java)里,找到方法 identifyCharType,加入以下代码:
} else if (ub == Character.UnicodeBlock.GREEK // 希腊符号 // 希腊扩展符号 || ub == Character.UnicodeBlock.GREEK_EXTENDED // 拉丁字符 || ub == Character.UnicodeBlock.BASIC_LATIN // 拉丁补充字符 || ub == Character.UnicodeBlock.LATIN_1_SUPPLEMENT // 拉丁扩展A字符 || ub == Character.UnicodeBlock.LATIN_EXTENDED_A // 拉丁扩展B字符 || ub == Character.UnicodeBlock.LATIN_EXTENDED_B) { return CHAR_CHINESE; }
原理很简单,把特殊符号当作中文处理。
不想改代码的,可以直接下载:
!!!转发请注明出处和作者名称。
!!!转发请注明出处和作者名称。
!!!转发请注明出处和作者名称。
重要的事,说三遍。