调整字典
使用 add_word(word, freq=None, tag=None)
和 del_word(word)
可在程序中动态修改词典。
使用 get_FREQ(word)
用来统计当前词的词频。
使用 suggest_freq(segment, tune=True)
可调节单个词语的词频,使其能(或不能)被分出来。
注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。
# test frequency tune testlist = [ ('今天天气不错', ('今天', '天气')), ('如果放到post中将出错。', ('中', '将')), ('我们中出了一个叛徒', ('中', '出')), ] for sent, seg in testlist: print('/'.join(jieba.cut(sent, HMM=False))) word = ''.join(seg) print('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True))) print('/'.join(jieba.cut(sent, HMM=False))) print("-"*40)
1 2 3 4 5 6 7 8 9 10 11 12 | 今天天气/不错 今天天气 Before: 3, After: 0 今天/天气/不错 如果/放到/post/中将/出错/ 中将 Before: 763, After: 494 如果/放到/post/中/将/出错/。 我们/中/出/了/一个/叛徒 中出 Before: 3, After: 3 我们/中/出/了/一个/叛徒 |
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步