使用jieba分词时，自定义词典（jieba.load_userdict('userdict.txt')）不生效的一种可能原因

今天使用jieba分词时，发现 jieba.load_userdict('userdict.txt') 并没有将自定义的词给保留下载，比如原文本中包含了 “不开心”，我想把“不开心”保留下来【ps：在常用的那几种模式中，都会分成不 / 开心，所以想到将“不开心”，自定义到词典中来达到目的】

然而我发现，当我使用了 jieba.load_userdict('userdict.txt') 时，并没有成功地把“不开心”保留，更甚者，连 “不 / 开心” 都不见了。。。。

后面发现，我在分词时因为需要保留词性，所以使用的是使用的是 jieba.posseg.lcut(sentence)，但是，我添加自定义词典时只是单纯地在文件中写入了 “不开心”，省略了词频和词性，后来顺便补上词频和词性后，问题就得到解决了。

关于词频和词性如何填写，这里有篇文章提到：jieba 默认有349046个词,然后每行的含义是 词词频词性,如果你新加的词汇不知道该怎么设置的话，可以写成 词 3 n

（至于根本原因是啥，我也没有深究进去）

posted @ 2020-03-03 16:29 一去二三浪里小白龙阅读(13773) 评论(0) 编辑收藏举报

刷新页面返回顶部

吴武陵