使用jieba分词时,自定义词典(jieba.load_userdict('userdict.txt'))不生效的一种可能原因
今天使用jieba分词时,发现 jieba.load_userdict('userdict.txt') 并没有将自定义的词给保留下载,比如原文本中包含了 “不开心”,我想把“不开心”保留下来【ps:在常用的那几种模式中,都会分成 不 / 开心,所以想到将“不开心”,自定义到词典中来达到目的】
然而我发现,当我使用了 jieba.load_userdict('userdict.txt') 时,并没有成功地把“不开心”保留,更甚者,连 “不 / 开心” 都不见了。。。。
后面发现,我在分词时因为需要保留词性,所以使用的是使用的是 jieba.posseg.lcut(sentence),但是,我添加自定义词典时只是单纯地在文件中写入了 “不开心”,省略了词频和词性,后来顺便补上词频和词性后,问题就得到解决了。
关于词频和词性如何填写,这里有篇文章提到:jieba 默认有349046个词,然后每行的含义是 词 词频 词性
,如果你新加的词汇不知道该怎么设置的话,可以写成 词 3 n
(至于根本原因是啥,我也没有深究进去)