01 2023 档案

摘要:从 GitHub 下载对应版本的 IK 分词器源码,修改 CharacterUtil.identifyCharType 方法,将特殊符号、标点符号当做中文进行处理即可。 添加: //驼峰作为分词点 if (input >= 'A' && input <= 'Z') return CHAR_CHINE 阅读全文
posted @ 2023-01-16 19:31 牛有肉 阅读(891) 评论(0) 推荐(0) 编辑
摘要:倒排索引的简单 JAVA 实现,当玩具其实都很粗糙,简单实现下原理: public class IntertedIndex { // 倒排索引 private Map<String, List<String>> indexMap; // 关键词计数 private Map<String, Integ 阅读全文
posted @ 2023-01-09 13:50 牛有肉 阅读(561) 评论(0) 推荐(0) 编辑