结巴分词-java版本实现

开发中遇到关键词搜索的情况，需要对输入内容分词进行模糊匹配，下面推荐一个分词插件-结巴分词。

源码地址：https://github.com/huaban/jieba-analysis

1.引入相关jar

<dependency>
       <groupId>com.huaban</groupId>
    <artifactId>jieba-analysis</artifactId>
     <version>1.0.2</version>
 </dependency>

2. 代码测试：

 @Test
    public void demo() {
        String content = "知吾煮牛奶锅";
        JiebaSegmenter segmenter = new JiebaSegmenter();
        List<String> result = segmenter.sentenceProcess(content);
        System.out.println("分词：" + result);
    }

打印结果：分词：[知吾煮, 牛奶, 锅]

如果想自定义分词怎么办呢？例如拆分为 “奶锅” 而不是“牛奶“ “锅”

可以自定义一个文件添加自己需要的分词以及设置词频词性。

用法：loadUserDict(peth) #path 为文件自定义词典的路径

词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。

例：在项目resources 下创建文件 dicts/jieba.dict, 添加 “奶锅 802 n” ，想要优先展示自定义的词可提高自定义的词频权重。

再次测试：

@Test
    public void demo() {
        String content = "知吾煮牛奶锅";
        JiebaSegmenter segmenter = new JiebaSegmenter();
        List<String> result = segmenter.sentenceProcess(content);
        System.out.println("分词：" + result);

        // Path path = Paths.get("D:\\data\\test\\test.txt");

        Path path = Paths.get(new File(getClass().getClassLoader().getResource("dicts/jieba.dict").getPath()).getAbsolutePath());
        WordDictionary.getInstance().loadUserDict(path);

        List<String> result2 = segmenter.sentenceProcess(content);
        System.out.println("自定义分词：" + result2);

    }

打印结果：

分词：[知吾煮, 牛奶, 锅]
自定义分词：[知吾煮, 牛, 奶锅]

posted @ 2022-08-23 11:08 山阴路的秋天阅读(1546) 评论(0) 编辑收藏举报

刷新页面返回顶部

山阴路的秋天

结巴分词-java版本实现

公告