使用jieba分词时,自定义词典(jieba.load_userdict('userdict.txt'))不生效的一种可能原因

今天使用jieba分词时,发现 jieba.load_userdict('userdict.txt') 并没有将自定义的词给保留下载,比如原文本中包含了 “不开心”,我想把“不开心”保留下来【ps:在常用的那几种模式中,都会分成 不  /  开心,所以想到将“不开心”,自定义到词典中来达到目的】

然而我发现,当我使用了 jieba.load_userdict('userdict.txt') 时,并没有成功地把“不开心”保留,更甚者,连 “不 /  开心” 都不见了。。。。

 

后面发现,我在分词时因为需要保留词性,所以使用的是使用的是 jieba.posseg.lcut(sentence),但是,我添加自定义词典时只是单纯地在文件中写入了 “不开心”,省略了词频和词性,后来顺便补上词频和词性后,问题就得到解决了。

关于词频和词性如何填写,这里有篇文章提到jieba 默认有349046个词,然后每行的含义是 词 词频 词性,如果你新加的词汇不知道该怎么设置的话,可以写成 词 3 n

(至于根本原因是啥,我也没有深究进去)

posted @ 2020-03-03 16:29  一去二三浪里小白龙  阅读(13773)  评论(0编辑  收藏  举报
//增加一段JS脚本,为目录生成使用