调整字典

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

使用 get_FREQ(word) 用来统计当前词的词频。

使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。

注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。

复制代码
# test frequency tune
testlist = [
('今天天气不错', ('今天', '天气')),
('如果放到post中将出错。', ('', '')),
('我们中出了一个叛徒', ('', '')),
]
 
for sent, seg in testlist:
    print('/'.join(jieba.cut(sent, HMM=False)))
    word = ''.join(seg)
    print('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True)))
    print('/'.join(jieba.cut(sent, HMM=False)))
    print("-"*40)
复制代码

 

1
2
3
4
5
6
7
8
9
10
11
12
今天天气/不错
今天天气 Before: 3, After: 0
今天/天气/不错
 
如果/放到/post/中将/出错/
中将 Before: 763, After: 494
如果/放到/post/中/将/出错/。
 
我们/中/出/了/一个/叛徒
中出 Before: 3, After: 3
我们/中/出/了/一个/叛徒
 

  

posted @   小张睡醒了  阅读(16)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示