结巴分词-java版本实现
开发中 遇到关键词搜索的情况,需要对输入内容分词进行模糊匹配,下面推荐一个分词插件-结巴分词。
源码地址:https://github.com/huaban/jieba-analysis
1.引入相关jar
<dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2</version> </dependency>
2. 代码测试:
@Test public void demo() { String content = "知吾煮牛奶锅"; JiebaSegmenter segmenter = new JiebaSegmenter(); List<String> result = segmenter.sentenceProcess(content); System.out.println("分词:" + result); }
打印结果:分词:[知吾煮, 牛奶, 锅]
如果想自定义分词怎么办呢? 例如拆分为 “奶锅” 而不是“牛奶“ “锅”
可以自定义一个文件 添加自己需要的分词 以及设置词频词性 。
用法:loadUserDict(peth) #path 为文件自定义词典的路径
词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。
例:在项目resources 下创建文件 dicts/jieba.dict, 添加 “奶锅 802 n” ,想要优先展示自定义的词 可提高自定义的词频权重。
再次测试:
@Test public void demo() { String content = "知吾煮牛奶锅"; JiebaSegmenter segmenter = new JiebaSegmenter(); List<String> result = segmenter.sentenceProcess(content); System.out.println("分词:" + result); // Path path = Paths.get("D:\\data\\test\\test.txt"); Path path = Paths.get(new File(getClass().getClassLoader().getResource("dicts/jieba.dict").getPath()).getAbsolutePath()); WordDictionary.getInstance().loadUserDict(path); List<String> result2 = segmenter.sentenceProcess(content); System.out.println("自定义分词:" + result2); }
打印结果:
分词:[知吾煮, 牛奶, 锅]
自定义分词:[知吾煮, 牛, 奶锅]
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!